Reconnaissance automatique de l'index

Reconnaissance automatique de l'index

La reconnaissance automatique des index est l'essence même d'Intelligent Indexing. Elle repose principalement sur trois domaines : (1) les différentes méthodes de lecture et d'analyse des documents individuels, (2) les espaces modèles dans lesquels sont recherchés les documents similaires précédemment traités par Intelligent Indexing et (3) les algorithmes d'apprentissage automatique.

Reconnaissance de l'index

Intelligent Indexing a recours à de nombreuses méthodes pour déterminer les mots index corrects pour les documents. Pour certains d'entre eux, DocuWare a déposé des brevets en Allemagne et aux États-Unis. Le système est très performant, même s'il exécute de nombreux algorithmes différents pour chaque document. De plus, il peut travailler de manière flexible dans différentes langues et aires culturelles, traiter sans problème des documents numérisés, et analyser des éléments de documents quelle que soit la page dans le document ou leur emplacement sur cette page.

Pour chaque champ index d'un document, Intelligent Indexing évalue les résultats de chaque méthode et exploite une combinaison d'algorithmes pour déterminer le mot index le plus plausible. Le mot choisi s'affiche à l'utilisateur directement dans la boîte de dialogue de stockage, tandis que les mots index moins plausibles sont présentés dans une liste de sélection.

Intelligent Indexing apprend quelles données un utilisateur souhaite lire à l'aide de documents de référence. Plus le nombre de documents de référence lus est important, plus la précision et la fiabilité sont élevées.

Espace modèle

Dans Intelligent Indexing, le terme « espace modèle » désigne le composant qui s'appuie sur des informations de documents précédents à des fins d'indexation d'un nouveau document et qui stocke également les résultats de la formation. Un espace modèle est toujours spécifique à une organisation, c'est-à-dire que les extraits de plein-texte et les résultats de la formation sont résumés par organisation et sont rigoureusement séparés des données des autres organisations DocuWare.

Commentaires des utilisateurs

Chaque fois qu'un utilisateur confirme ou modifie des mots index, Intelligent Indexing analyse ce feedback, le gère dans l'espace modèle et applique les informations recueillies aux futurs documents similaires.

La manière dont Intelligent Indexing extrait des informations sur les corrections apportées par un utilisateur aux mots index suggérés en est un exemple. Par exemple, si la reconnaissance optique de caractères lit Docuware GmbH (avec un « w » minuscule) au lieu de DocuWare GmbH et que l'utilisateur le corrige en conséquence, DocuWare GmbH sera suggéré avec la capitalisation appropriée lors du prochain traitement d'un document similaire.

Cependant, le système ne se limite pas à apprendre des mots. Il récupère également les métadonnées correspondantes, telles que leur position dans le document. Dès qu'un autre document du même type se représente, un mot dans la même position dans le nouveau document sera suggéré comme mot index.