Intelligent Indexing est un système basé sur des algorithmes d'apprentissage automatique qui reconnaissent indépendamment les types de documents standard et suggèrent les contenus de document appropriés en tant que mots index. L'indexation s'effectue automatiquement en arrière-plan.
À des fins de transparence, le présent livre blanc illustre les aspects ci-après du système Intelligent Indexing :
Son architecture
Sa technique d'identification des mots index et ses algorithmes d'apprentissage automatique, et
Sa sécurité
Le lecteur aura ainsi un aperçu complet du fonctionnement du système Intelligent Indexing.
Ce livre blanc s'adresse aux clients (utilisateurs), aux sociétés de conseil, à la presse IT et aux partenaires de distribution. Il suppose un certain niveau de connaissances techniques sur la structure des applications logicielles actuelles, ainsi que, idéalement, des systèmes de gestion documentaire (GED). Une connaissance approfondie des versions actuelles ou antérieures de DocuWare n'est pas nécessaire.
Introduction
Le concept d'Intelligent Indexing
Avec Intelligent Indexing, DocuWare classe les documents en différents types et recherche automatiquement les mots index au sein des documents pour les indexer, ét les proposer ensuite à l'utilisateur. L'utilisateur doit seulement confirmer ou améliorer les suggestions. Le système « apprend » en permanence en fonction des commentaires.
Intelligent Indexing s'appuie non seulement sur les documents et les commentaires de chaque utilisateur DocuWare, mais également sur l'ensemble des utilisateurs d'une organisation DocuWare (qui englobe généralement l'entreprise d'un client). De cette façon, les bons mots index sont affectés automatiquement à de nombreux documents, sans contraindre les utilisateurs à les apprendre séparément..
Après une courbe d'apprentissage à l'évolution rapide, Intelligent Indexing remplace en grande partie l'indexation manuelle. La gestion électronique de documents (GED) est ainsi plus rapide que l'archivage papier traditionnel lorsqu'il s'agit d'archiver des documents.
Architecture
Le système Intelligent Indexing s'exécute au cœur d'un centre de données. Ce dernier est composé de plusieurs ordinateurs exécutant Intelligent Indexing Service et d'une base de données (SQL Azure). La base de données stocke les extractions en plein-texte, les données d'indexation, les commentaires des utilisateurs et certaines informations générales comme la langue du document, le format de la date, etc. pour les documents analysés par Intelligent Indexing.
Le système Intelligent Indexing est actuellement hébergé dans son ensemble sur Windows Azure, une plateforme Cloud de Microsoft, ce qui lui assure une grande évolutivité et une sécurité contre les pannes. L'architecture des services Cloud de Windows Azure permet d'éviter les temps d'arrêt, même durant l'installation des mises à jour du système Intelligent Indexing. Par ailleurs, une structure d'utilisateurs et de rôles permet de s'assurer que seuls les utilisateurs autorisés ont accès aux informations des documents stockés.
Les centres de données suivants sont utilisés :
Amsterdam (Pays-Bas) pour les clients de la région EMEA
Virginie (États-Unis) pour les clients d'Amérique du Nord et du Sud
Tokyo (Japon) pour les clients du Japon
Nouvelle-Galles du Sud (Australie) pour les clients d'Australie et de quelques autres pays d'Asie-Pacifique.
Pour les clients de DocuWare Cloud, le centre de données utilisé pour Intelligent Indexing se trouve toujours dans la même région que le centre de données de DocuWare Cloud.
Intelligent Indexing dans le système DocuWare
Relier Intelligent Indexing à DocuWare
Les clients DocuWare disposant d'une installation sur site doivent souscrire séparément au service. Le client recevra alors un fichier de configuration au format XML à importer dans Configuration DocuWare pour le système DocuWare du client. Le système DocuWare peut alors utiliser les données contenues dans ce fichier pour établir le lien avec Intelligent Indexing Service. Pour les clients DocuWare Cloud, le système est préconfiguré.
Des mots index sont suggérés pour les documents se trouvant dans les bacs DocuWare, qui doivent être configurés en conséquence. Outre l'activation d'Intelligent Indexing Service, cette opération implique de sélectionner une boîte de dialogue de stockage compatible avec Intelligent Indexing. C'est dans la boîte de dialogue de stockage que se définit l'attribution des catégories pour lesquelles Intelligent Indexing devra effectuer des suggestions, par exemple le type de document, la date, le contact, le montant, etc. pour certains champs DocuWare en particulier. Lorsque vous stockez des documents auxquels Intelligent Indexing a attribué des mots index, ces derniers sont saisis dans les champs index de la boîte de dialogue de stockage.
En savoir plus sur la configuration d'Intelligent Indexing.
Workflow avec Intelligent Indexing
Lorsqu'un document est envoyé vers un bac configuré pour Intelligent Indexing, des extractions de plein-texte sont générées, puis transférées automatiquement à l'Intelligent Indexing Service. Le service analyse les extractions de plein-texte, recherche les documents similaires précédemment connus et propose des suggestions de mots index. En fonction de la certitude avec laquelle Intelligent Indexing identifie les mots index suggérés, les documents sont mis en surbrillance dans le bac en l'une des trois couleurs des « feux de signalisation ». Pour les clients utilisateurs du service Cloud d'Intelligent Indexing associé à un système DocuWare on-premise, le document est désormais ajouté au quota du client.
Lorsque l'utilisateur souhaite stocker un document dans l'armoire via la boîte de dialogue de stockage assignée, les mots index suggérés par Intelligent Indexing sont affichés dans les champs index respectifs de la boîte de dialogue. Une fois encore, le code couleur à trois niveaux permet de reconnaître la probabilité de l'exactitude de chaque mot index. Le document est également affiché dans la Visionneuse DocuWare.
L'utilisateur fournit au système Intelligent Indexing un feedback en acceptant ou modifiant les mots index. Le système analyse les feedbacks à l'aide d'algorithmes d'apprentissage automatique, ce qui permet à Intelligent Indexing d'indexer correctement des documents similaires à l'avenir. Pour obtenir l'effet d'apprentissage le plus significatif possible, l'utilisateur ne doit pas saisir les mots index directement dans la boîte de dialogue de stockage lorsqu'il les modifie ou les ajoute, mais les appliquer à l'aide de One Click Indexing. Il s'agit d'une fonctionnalité de la Visionneuse DocuWare, qui reprend les mots/chiffres/données du document affiché dans la boîte de dialogue de stockage. Ce faisant, Intelligent Indexing reçoit des informations sur la position du mot dans le document ainsi que sur le mot lui-même, ce qui améliore l'efficacité de son apprentissage.
En savoir plus sur l'utilisation d'Intelligent Indexing.
Concept de sécurité
Transfert du contenu des documents et des mots index
Le client Web et le service Intelligent Indexing communiquent l'un avec l'autre pour télécharger des extractions de plein-texte de documents, et envoyer des suggestions d'indexation et des commentaires. Toutes ces communications sont chiffrées par HTTPS, ce qui protège le contenu des documents et les mots index de tout accès par des tiers.
Enregistrement du contenu du document
Le système Intelligent Indexing stocke les extractions en plein-texte, les données d'indexation, les commentaires des utilisateurs et certaines informations générales comme la langue du document, le format de la date, etc. pour les documents analysés. La base de données utilisée à cette fin est hébergée par Microsoft Azure, ce qui garantit une grande évolutivité et une sécurité contre les pannes. Par ailleurs, une structure d'utilisateurs et de rôles permet de s'assurer que seuls les utilisateurs autorisés ont accès aux informations des documents stockés. Aussi le support DocuWare est-il en mesure d'accéder, avec l'autorisation du client, à ces extractions de plein-texte pour analyser et résoudre d'éventuels problèmes.
Sur demande, les données peuvent également être retirées du système Intelligent Indexing.
Suppression des données lors de l'abandon du système
Si un client DocuWare décide de ne plus utiliser le système Intelligent Indexing, l'espace modèle spécifique à l'organisation associée ainsi que les extractions en plein-texte des documents sont supprimés du système Intelligent Indexing.