Configurations de la reconaissance de texte

Utilisez ces configurations pour définir les paramètres de la reconnaissance de texte.

Texte : paramètres avancés

Pour certains documents, il peut s'avérer nécessaire de définir davantage de propriétés pour la reconnaissance de texte dans la configuration, situées sous Texte > Paramètres avancés.

Cette procédure n'est pas nécessaire pour la plupart des documents et elle n'est pas recommandée. S'il est toutefois nécessaire de définir des propriétés supplémentaires, DocuWare Support vous aidera volontiers à définir les bonnes propriétés en fonction de vos documents.

Vous trouverez ici une liste des propriétés avec les valeurs possibles :

Propriété	Valeurs possibles
AutoDeskew	true (par défaut), false Facultatif. Si cette valeur est réglée sur true, les pages du document sont redressées avant la reconnaissance du texte. La page du document d'origine n'est pas modifiée.
AutoRotate	true (par défaut), false Si cette valeur est réglée sur true, les pages du document sont pivotées avant la reconnaissance du texte. La page du document d'origine n'est pas modifiée.
DespeckleMode	true (par défaut), false Si cette valeur est réglée sur true, les pages du document sont nettoyées avant la reconnaissance du texte. La page du document d'origine n'est pas modifiée.
FaxImageMode	true, false (par défaut) À n'utiliser que si la propriété Module est définie sur MOR. Si le fichier image à charger est un fax transmis en mode standard ou brouillon avec une faible résolution, réglez la valeur sur true.
FillingMethod	Définit la police de texte à reconnaître. DEFAULT : aucune restriction pour les modules de reconnaissance. DASHDIGIT : voir par exemple Dash Digit Font (Module : MAT). DRAFTDOT9 : indique un projet d'impression matricielle à 9 broches (Module : PLUS3, PLUS2, DOT, MTX). DRAFTDOT24 : indique un projet d'impression matricielle à 24 broches (Module : PLUS3, PLUS2, MOR, FRX, MTX). DOTDIGIT : voir par exemple Dot Digit Font (Module : MAT). OCRA : voir par exemple OCRA font (Module : MOR, MTX, MAT, RER). OCRB : voir par exemple OCRB font (Module : MOR, MTX, MAT, RER). OMNIFONT (par défaut) : indique un texte imprimé machine avec une police quelconque sans style particulier (Module : PLUS3, PLUS2, MOR, FRX, MTX). OMR : indique une zone avec une ou plusieurs cases à cocher pour lesquelles il faut vérifier la présence de marques visuelles (coches) (Module : OMR).
Filter	Spécifie un groupe de caractères à reconnaître. Paramètre : flags. Valeur : hexadécimale allant de 0x01 à 2F. 0x01 : Places 0x02 : Majuscules 0x04 : Minuscules 0x08 : Ponctuation, autres caractères 0x10 : Autres caractères 0x20 : Caractères qui sont définis dans FilterPlus Exemples : 0x06 : Tous les caractères d'un alphabet 0x07 : Caractères alphanumériques 0x21 : Numéros et caractères qui sont définis dans FilterPlus 0x1F :Tous les caractères (par défaut) 0x2F : Tous les caractères (par défaut) plus les caractères spécifiés dans FilterPlus
FilterPlus	Toute chaîne de caractères (par défaut : chaîne vide) Définit un ensemble de caractères individuels élargissant le jeu de caractères qui peuvent être reconnus. La chaîne doit contenir des caractères qui ne font pas partie des langues sélectionnées.
Module	AUTO (par défaut) ASIAN : fournit des services de reconnaissance pour les langues CCJK qui se lisent à l'horizontale ou à la verticale : japonais, coréen, chinois traditionnel et chinois simplifié. Reconnaît également l'écriture arabe. Peut traiter de courts textes anglais incorporés dans un texte CCJK ou un texte arabe. DOT : conçu uniquement pour les textes matriciels à 9 broches de qualité brouillon. FRX : reconnaît les textes imprimés machine : publications, impressions laser et par jet d'encre, machines à écrire électroniques. Fonctionne également avec les textes saisis au moyen de machines à écrire manuelles avec une encre de bonne qualité. Ce paramètre doit également être utilisé pour les textes de qualité courrier (LQ) ou qualité quasi-courrier (NLQ) des imprimantes matricielles. MAT : lit certains groupes de caractères fixes spécialement conçus pour la reconnaissance de texte ou les textes graphiques où aucun caractère n'a de forme similaire. Chaque groupe de caractères a sa propre méthode de remplissage. MOR : reconnaît les textes imprimés machine : publications, impressions laser et par jet d'encre, machines à écrire électroniques. Fonctionne également avec les textes saisis au moyen de machines à écrire manuelles avec une encre de bonne qualité. Ce paramètre peut également être utilisé pour les textes de qualité courrier (LQ) ou quasi-courrier (NLQ) des imprimantes matricielles. MTX : reconnaît les textes imprimés machine : publications, impressions laser et par jet d'encre, machines à écrire électroniques. Ce paramètre peut également être utilisé pour les textes des machines à écrire manuelles avec une encre de bonne qualité, les textes de qualité courrier (LQ) ou quasi-courrier (NLQ) des imprimantes matricielles, et les textes de qualité brouillon. OMR : utilisé pour détecter les marques (coches) dans les questionnaires, les bulletins de vote, les tests éducatifs et les rapports ou bons de commande, lorsque les documents à traiter sont de type formulaire et remplis à la main. PLUS2 et PLUS3 : PLUS2W et PLUS3W sont des moteurs de vote qui combinent les résultats des autres moteurs de reconnaissance de texte OMNIFONTCSDK. Différentes combinaisons de moteurs sont proposées dans plusieurs modes. Le module de reconnaissance reconnaît les textes imprimés machine : publications, impressions laser et par jet d'encre, machines à écrire électroniques. Fonctionne également avec les textes saisis au moyen de machines à écrire manuelles avec une encre de bonne qualité.
NonGriddedTableDetect	true (par défaut), false Si cette valeur est réglée sur true, les tableaux qui n'ont pas de quadrillage sont reconnus plus efficacement.If set to true, tables that have no grid lines will be detected more confidently.
OcrPageMaximum	Tout nombre entier (par défaut : 25) Indique le nombre de pages extraites par OCR/Dynapdf dans DocuWare Desktop. Si cette clé est définie, elle écrase la valeur OcrPageMaximum. Utilisé uniquement si les paramètres de reconnaissance de texte sont utilisés dans une configuration de traitement de documents DocuWare.
ProcessingMode	AUTO (par défaut) NORMAL GRAPHICS_ONLY PDF_PM_TEXT_ONLY PDF_PM_TEXT_ONLY_EXT PDF_PM_AS_IMAGE
RecognitionMode	Indique l'utilisation des données de texte provenant de fichiers PDF ordinaires. Utilisé uniquement si les paramètres de reconnaissance de texte sont utilisés dans une configuration de traitement de documents DocuWare. ALWAYSRECOGNIZE (par défaut) : combine les caractères du résultat de la reconnaissance de texte avec le texte PDF. ALWAYSGETTEXT : utilise le texte du PDF. ALWAYSRECOGNIZEASIMAGE : utilise le texte du PDF en se basant uniquement sur le résultat de la reconnaissance de texte pour déterminer les espaces entre les mots (méthode la plus rapide). MOSTLYGETTEXT : identique au mode ALWAYSGETTEXT. Identique à ALWAYSRECOGNIZE. uniquement si un problème de codage des caractères de la police est détecté sur une page PDF. Utilisé uniquement si les paramètres de reconnaissance de texte sont utilisés dans une configuration de traitement de documents DocuWare.
RejectionSymbol	Tout caractère qui ne fait pas partie du texte à reconnaître (par défaut : '~'). Indique le caractère à utiliser comme symbole pour les caractères non reconnus et donc rejetés dans le document final.
ReturnAllLines	true (par défaut), false Si cette valeur est réglée sur true, toutes les lignes détectées par la reconnaissance de texte apparaissent dans le document final (y compris les lignes de tableaux).
SureText	true, false (par défaut) Si cette valeur est réglée sur true, le texte des zones avec des bruits est également reconnu.
ThresholdForImageConversion	0-255 (par défaut : 128) Détermine les pixels qui sont convertis en noir ou en blanc lors du prétraitement de la reconnaissance de texte. Peut être utilisé lorsque des caractères clairs avec un faible contraste ne sont pas reconnus parce qu'ils sont convertis en blanc lors du prétraitement de l'image. Utiliser une valeur inférieure à 128 peut supprimer les lignes claires, par exemple, et cela peut affecter la qualité de la reconnaissance.
TreatGraphicAsFlow	true, false (par défaut) Si cette valeur est réglée sur true, les zones graphiques sont traitées comme des zones de flux. Il est nécessaire d'indiquer si le texte contient des zones rouges (graphiques) avec du texte.
UseFreeFormInPageDescriptor	true, false (par défaut) Régler la valeur sur true permet d'obtenir de meilleurs résultats pour les zones avec des caractères de tailles différentes. En outre, la propriété ZonehandlingModule doit être définie sur STANDARD.
UseOcrForNativePdf	true, false (default) Ne doit être appliqué que si les paramètres de reconnaissance de texte sont utilisés dans une configuration de traitement de documents de DocuWare. Si cette option est définie sur true, pour les PDF natifs, Kofax (anciennement Nuance) Toolkit est utilisé pour l'extraction de texte au lieu de DynaPDF. En combinaison avec RecognitionMode = ALWAYSRECOGNIZEASIMAGE et ProcessingMode = PDF_PM_AS_IMAGE, ce paramètre impose que l'extraction de texte soit effectuée avec Kofax CSDK, toutes les pages d'un PDF natif sont rendues et la technologie OCR est utilisée pour l'extraction de texte. Le texte contenu dans le PDF natif sera ignoré. L'utilisation de ce paramètre est appropriée pour les PDF natifs où l'extraction de texte avec DynaPDF Toolkit renvoie des caractères absurdes.
ZonehandlingModule	AUTO (par défaut), utilise LEGACY si TradeOff est défini sur FAST. Sinon, utilise STANDARD. LEGACY STANDARD FAST Spécifie l'algorithme utilisé pour la décomposition de la mise en page. La modification de l'algorithme de mise en page peut être utile si aucun texte n'est reconnu pour une zone de la page d'un document qui contient du texte.

Documentation Index

Configurations de la reconaissance de texte

Texte : paramètres avancés

Versions prises en charge : DocuWare Cloud + 7.14 + 7.13 + 7.12 + 7.11 + 7.10