Introduction au Intelligent Document Processing

DocuWare Intelligent Document Processing (IDP) utilise l'intelligence artificielle pour traiter vos documents. Cela comprend la division, la classification et l'extraction de données pour l'indexation des documents.

Le traitement des documents, et en particulier l'indexation, constitue la base de tous les processus avec DocuWare. Les obligations légales imposent des documents parfaitement indexés ; la recherche documentaire et les processus métier reposent sur les données d'index des documents et peuvent être rationalisés une fois ces données extraites. Des valeurs d'index telles qu'un numéro de facture, un nom de fournisseur ou la date d'un contrat transforment un fichier stocké en un enregistrement consultable et exploitable. IDP prend en charge ce travail : il lit le contenu du document, identifie les informations pertinentes et les inscrit dans vos champs d'index DocuWare.

Le problème résolu par IDP

La plupart des documents professionnels sont non structurés. Ils arrivent sous forme de PDF numérisés, de pièces jointes d'e-mails ou de pages photographiées, et chaque fournisseur les met en page différemment. Les informations dont vous avez besoin se trouvent quelque part sur la page, mais pas selon une structure de données prévisible. Extraire manuellement les données utiles de ces fichiers est lent, répétitif et source d'erreurs. Les approches d'automatisation traditionnelles tentent de résoudre ce problème à l'aide de modèles fixes, mais ces derniers échouent dès qu'un fournisseur modifie sa mise en page ou qu'un nouveau type de document apparaît.

IDP adopte une approche différente. Au lieu de s'appuyer sur des règles rigides, il utilise une intelligence artificielle qui apprend à partir de vos documents réels. L'IA reconnaît les types de documents, trouve les champs pertinents et gère les variations de mise en page, de langue et de qualité de numérisation sans nécessiter un modèle distinct pour chaque fournisseur ou format. Le résultat est un pipeline de traitement qui s'adapte à vos documents au lieu de les contraindre à une structure fixe.

Information : structuré vs non structuré
Les données structurées résident dans un schéma clairement défini : une base de données, un tableur ou un fichier XML. Chaque information a une place fixe et un format connu. Les données non structurées correspondent à tout le reste. Une facture numérisée est non structurée car le numéro de facture peut figurer en haut à droite chez un fournisseur et au milieu de la page chez un autre. Il en va de même pour les contrats, les bons de livraison et la plupart des correspondances professionnelles. L'information est présente, mais sa position varie d'un document à l'autre.

Comment IDP traite un document

Chaque document qui entre dans IDP passe par la même séquence d'étapes. Le processus s'exécute automatiquement en arrière-plan et, dans la plupart des configurations, aucune interaction utilisateur n'est requise. Si votre processus exige une vérification humaine, par exemple lors des premières phases d'une nouvelle configuration IDP ou pour des documents à haut risque, vous pouvez ajouter une étape de vérification facultative au cours de laquelle un utilisateur examine et corrige les valeurs extraites avant l'archivage.

Prétraitement, division et classification

Le parcours commence par le prétraitement : IDP prépare le fichier entrant en exécutant la reconnaissance optique de caractères (OCR), en corrigeant la qualité de l'image et en alignant les pages. L'objectif est de produire une entrée propre et lisible, quelle que soit la manière dont le document a été capturé.

Vient ensuite la division. Dans de nombreux scénarios réels, les documents n'arrivent pas un par un. Un opérateur de scanner peut introduire une pile de 15 factures dans un appareil et produire un seul PDF. IDP détecte la fin d'un document et le début du suivant, sans codes-barres ni pages de séparation, et divise le fichier en documents individuels qui peuvent chacun être traités séparément.

Une fois les documents séparés, la classification prend le relais. IDP examine chaque document et détermine son type : facture, bon de livraison, contrat, bon de commande ou toute autre classe de document que vous avez définie pour votre organisation. Cette étape permet à IDP d'extraire le contenu et d'archiver chaque document.

Extraction et archivage

Une fois le type de document identifié, IDP passe à l'extraction du contenu réel. Chaque document contient des informations pertinentes pour votre processus métier. Sur une facture, par exemple, il s'agit du numéro de facture, de la date, du nom du fournisseur et du montant total. Sur un contrat, il peut s'agir de l'identifiant du contrat, de la date d'effet et des parties concernées. Dans la terminologie d'IDP, chacune de ces informations est appelée un champ. C'est vous qui décidez quels champs IDP doit rechercher.

IDP localise ces champs dans le document, lit leurs valeurs et les inscrit dans les champs d'index DocuWare correspondants. Une fois cette étape terminée, le document est consultable et prêt pour les processus suivants.

Enfin, le document entièrement indexé est stocké dans l'armoire cible. Si un processus de travail est configuré, par exemple un processus d'approbation de facture, il démarre automatiquement dès l'arrivée du document. Du point de vue de l'utilisateur, les documents apparaissent simplement au bon endroit avec les bonnes métadonnées, comme si quelqu'un les avait classés à la main.

Types de modèles d'IA

IDP s'appuie sur trois types de modèles d'IA, chacun responsable de l'une des étapes de traitement clés décrites ci-dessus. Dans DocuWare, ces modèles sont également appelés agents.

Les modèles de division détectent les limites des documents dans un fichier de plusieurs pages. Ils fonctionnent uniquement à partir du contenu, en reconnaissant les transitions de texte, de mise en page ou de structure d'un document à un autre. Ils ne nécessitent ni codes-barres, ni pages blanches, ni nombre de pages fixe. Cela les rend particulièrement utiles dans les scénarios de service courrier où les opérateurs numérisent des piles mixtes de papier sans pré-tri.
Les modèles de classification attribuent chaque document à une classe de document que vous définissez. Ces classes peuvent être aussi larges ou aussi spécifiques que votre organisation le requiert. Une configuration simple peut distinguer « Facture », « Bon de livraison » et « Autre ». Une configuration plus avancée peut différencier « Facture nationale », « Facture internationale », « Avoir » et « Facture pro forma ». Le modèle apprend à partir d'exemples, de sorte que lorsque votre mélange de documents évolue au fil du temps, la classification peut évoluer avec lui.
Les modèles d'extraction effectuent l'extraction détaillée des données. Vous définissez quels champs le modèle doit extraire : numéro de facture, date, lignes d'articles, totaux ou toute autre information pertinente pour votre processus. Le modèle trouve ces valeurs même lorsque les mises en page varient d'un fournisseur à l'autre ou lorsque la qualité de numérisation est médiocre. Prenez l'exemple d'une équipe financière qui traite des factures provenant de 200 fournisseurs différents. Au lieu de maintenir un modèle pour chacun, un seul modèle d'extraction les gère tous.

Comment obtenir vos modèles

Vous n'êtes pas obligé de créer chaque modèle de A à Z. Selon votre scénario, vous pouvez choisir parmi plusieurs voies et les combiner au sein d'une même configuration IDP.

Modèles préconfigurés

Pour les cas d'usage courants, des modèles préconfigurés sont disponibles d'emblée. Ils couvrent des scénarios tels que l'extraction de factures standard ou la division de documents de base, et ne nécessitent ni entraînement ni configuration. Si vos documents respectent des formats largement utilisés, un modèle préconfiguré peut suffire pour démarrer.

Modèles entraînés à partir d'armoires DocuWare

Si vous disposez déjà d'un grand volume de documents archivés dans DocuWare, vous pouvez les utiliser comme données d'entraînement. Les modèles IDP peuvent être entraînés directement depuis DocuWare Configurations > DocuWare IDP. Vous sélectionnez les armoires qui contiennent vos documents d'entraînement, vous lancez l'entraînement, et les modèles obtenus sont adaptés aux formats, mises en page et contenus spécifiques de vos fichiers réels. L'entraînement peut prendre jusqu'à 24 heures, mais vous n'avez pas besoin d'attendre. Vous pouvez continuer à configurer votre processus de travail entre-temps.

Modèles personnalisés sur la plateforme IDP

Pour des besoins spécialisés ou complexes, vous pouvez créer des modèles entièrement personnalisés sur la plateforme IDP autonome. Cette plateforme prend en charge tout type de document, qu'il soit ou non archivé dans DocuWare, et est généralement utilisée avec l'aide de votre partenaire ou interlocuteur DocuWare.

Les modèles personnalisés peuvent être créés de deux manières. L'approche classique : vous téléversez des documents d'exemple, vous marquez les champs pertinents, vous entraînez le modèle et vous examinez les résultats. Cette méthode demande plus de temps et d'efforts, mais elle produit une très grande précision.
L'approche Gen AI fonctionne différemment et combine une configuration simple avec une grande précision. Avant d'annoter les documents, vous décrivez ce que le modèle doit extraire à l'aide d'instructions en langage naturel, par exemple « Extraire le numéro de facture », « Renvoyer uniquement la partie domaine de l'adresse e-mail » ou « Trouver la date de livraison dans la zone d'en-tête ». Le modèle commence à fonctionner immédiatement, sans aucune phase d'entraînement. Cela en fait une bonne solution pour de nombreux cas d'usage simples, mais aussi pour les preuves de concept ou les situations où vous avez besoin de résultats rapidement. C'est également un bon choix si vous souhaitez entraîner le modèle pendant que vous travaillez avec les documents et les valider lors du stockage.
Le modèle peut toujours être entraîné avec des données d'entraînement, affiné et testé pour atteindre la plus grande précision possible.

Où IDP s'intègre dans votre flux documentaire

IDP traite les documents à l'endroit où ils entrent dans DocuWare. Les deux points d'entrée les plus courants sont l'import par e-mail et les DocuWare Desktop Apps.

Import par e-mail :
Pour l'import par e-mail, vous configurez DocuWare pour qu'il surveille une boîte aux lettres et importe automatiquement les messages entrants. Lorsque vous ajoutez une configuration IDP à cette mise en place, chaque PDF joint est classifié et indexé avant d'atteindre l'armoire. Un exemple typique est une boîte aux lettres de comptabilité fournisseurs qui reçoit des dizaines de PDF de factures par jour. IDP classifie chaque pièce jointe, extrait les champs clés et archive le document sans intervention manuelle. Pour en savoir plus, consultez Configurer IDP pour l'import par e-mail.
DocuWare Desktop Apps :
Pour les DocuWare Desktop Apps, les documents ajoutés via les plug-ins Scan ou Import passent par le même pipeline IDP. Les factures papier capturées avec DocuWare Scan et les fichiers PDF existants importés via le plug-in Import sont automatiquement divisés, classifiés, indexés et archivés. Pour en savoir plus, consultez Configurer IDP pour les DocuWare Desktop Apps.

Questions fréquentes

À quelle précision puis-je m'attendre ?

La précision dépend de plusieurs facteurs : la qualité de vos numérisations, la variété des mises en page de documents et le fait que vous utilisiez un modèle préconfiguré, basé sur des prompts ou entraîné par annotation. Les modèles préconfigurés fonctionnent bien pour les documents standard. Les modèles personnalisés entraînés avec des données annotées atteignent généralement la plus grande précision. En général, plus vos données d'entraînement sont représentatives, meilleurs sont les résultats. Il n'existe pas de chiffre universel, mais vous pouvez surveiller les scores de confiance au fil du temps et ajuster votre configuration en conséquence.

Quels formats de documents et langues sont pris en charge ?

IDP traite les fichiers PDF, format le plus courant pour les documents professionnels numérisés et envoyés par e-mail. Les documents dans d'autres formats tels que TIFF ou JPEG sont convertis pendant le prétraitement. IDP prend en charge plusieurs langues. L'ensemble exact des langues prises en charge dépend du modèle et de la configuration. Contactez votre partenaire DocuWare pour plus de détails sur votre scénario spécifique.

Combien de temps faut-il pour mettre un modèle personnalisé en production ?

Avec l'approche GenAI, vous pouvez commencer à extraire des données en quelques minutes. Il n'y a pas de phase d'entraînement. Pour les modèles basés sur l'annotation, le calendrier dépend du nombre de documents que vous annotez et de la diversité des mises en page de vos documents. L'entraînement lui-même peut prendre jusqu'à 24 heures une fois lancé. En pratique, passer de la première annotation à un modèle prêt pour la production est généralement une affaire de jours, pas de semaines.

Puis-je réentraîner un modèle lorsque les mises en page des documents changent ?

Oui. Si un fournisseur modifie le format de ses factures ou si un nouveau type de document apparaît, vous pouvez mettre à jour les modèles existants avec des données d'entraînement supplémentaires. Vous n'avez pas besoin de créer un nouveau modèle de A à Z. Pour les modèles entraînés à partir d'armoires DocuWare, vous pouvez lancer une nouvelle session d'entraînement qui inclut les documents mis à jour.

Documentation Index