Configurations de la reconaissance de texte

Utilisez ces configurations pour définir les paramètres de la reconnaissance de texte.

Texte : paramètres avancés

Pour certains documents, il peut s'avérer nécessaire de définir davantage de propriétés pour la reconnaissance de texte dans la configuration, situées sous Texte > Paramètres avancés.

Cette procédure n'est pas nécessaire pour la plupart des documents et elle n'est pas recommandée. S'il est toutefois nécessaire de définir des propriétés supplémentaires, DocuWare Support vous aidera volontiers à définir les bonnes propriétés en fonction de vos documents.

Vous trouverez ici une liste des propriétés avec les valeurs possibles :

Propriété

Valeurs possibles

AutoDeskew

  • true (par défaut), false

Facultatif. Si cette valeur est réglée sur true, les pages du document sont redressées avant la reconnaissance du texte. La page du document d'origine n'est pas modifiée.

AutoRotate

  • true (par défaut), false

Si cette valeur est réglée sur true, les pages du document sont pivotées avant la reconnaissance du texte. La page du document d'origine n'est pas modifiée.

DespeckleMode

  • true (par défaut), false

Si cette valeur est réglée sur true, les pages du document sont nettoyées avant la reconnaissance du texte. La page du document d'origine n'est pas modifiée.

FaxImageMode

  • true, false (par défaut)

À n'utiliser que si la propriété Module est définie sur MOR. Si le fichier image à charger est un fax transmis en mode standard ou brouillon avec une faible résolution, réglez la valeur sur true.

FillingMethod

Définit la police de texte à reconnaître.

  • DEFAULT : aucune restriction pour les modules de reconnaissance.

  • DASHDIGIT : voir par exemple Dash Digit Font (Module : MAT).

  • DRAFTDOT9 : indique un projet d'impression matricielle à 9 broches (Module : PLUS3, PLUS2, DOT, MTX).

  • DRAFTDOT24 : indique un projet d'impression matricielle à 24 broches (Module : PLUS3, PLUS2, MOR, FRX, MTX).

  • DOTDIGIT : voir par exemple Dot Digit Font (Module : MAT).

  • OCRA : voir par exemple OCRA font (Module : MOR, MTX, MAT, RER).

  • OCRB : voir par exemple OCRB font (Module : MOR, MTX, MAT, RER).

  • OMNIFONT (par défaut) : indique un texte imprimé machine avec une police quelconque sans style particulier (Module : PLUS3, PLUS2, MOR, FRX, MTX).

  • OMR : indique une zone avec une ou plusieurs cases à cocher pour lesquelles il faut vérifier la présence de marques visuelles (coches) (Module : OMR).

Filter

Spécifie un groupe de caractères à reconnaître. Paramètre : flags. Valeur : hexadécimale allant de 0x01 à 2F.

  • 0x01 : Places

  • 0x02 : Majuscules

  • 0x04 : Minuscules

  • 0x08 : Ponctuation, autres caractères

  • 0x10 : Autres caractères

  • 0x20 : Caractères qui sont définis dans FilterPlus

Exemples :

  • 0x06 : Tous les caractères d'un alphabet

  • 0x07 : Caractères alphanumériques

  • 0x21 : Numéros et caractères qui sont définis dans FilterPlus

  • 0x1F :Tous les caractères (par défaut)

  • 0x2F : Tous les caractères (par défaut) plus les caractères spécifiés dans FilterPlus

FilterPlus

  • Toute chaîne de caractères (par défaut : chaîne vide)

Définit un ensemble de caractères individuels élargissant le jeu de caractères qui peuvent être reconnus. La chaîne doit contenir des caractères qui ne font pas partie des langues sélectionnées.

Module

  • AUTO (par défaut)

  • ASIAN : fournit des services de reconnaissance pour les langues CCJK qui se lisent à l'horizontale ou à la verticale : japonais, coréen, chinois traditionnel et chinois simplifié. Reconnaît également l'écriture arabe. Peut traiter de courts textes anglais incorporés dans un texte CCJK ou un texte arabe.

  • DOT : conçu uniquement pour les textes matriciels à 9 broches de qualité brouillon.

  • FRX : reconnaît les textes imprimés machine : publications, impressions laser et par jet d'encre, machines à écrire électroniques. Fonctionne également avec les textes saisis au moyen de machines à écrire manuelles avec une encre de bonne qualité. Ce paramètre doit également être utilisé pour les textes de qualité courrier (LQ) ou qualité quasi-courrier (NLQ) des imprimantes matricielles.

  • MAT : lit certains groupes de caractères fixes spécialement conçus pour la reconnaissance de texte ou les textes graphiques où aucun caractère n'a de forme similaire. Chaque groupe de caractères a sa propre méthode de remplissage.

  • MOR : reconnaît les textes imprimés machine : publications, impressions laser et par jet d'encre, machines à écrire électroniques. Fonctionne également avec les textes saisis au moyen de machines à écrire manuelles avec une encre de bonne qualité. Ce paramètre peut également être utilisé pour les textes de qualité courrier (LQ) ou quasi-courrier (NLQ) des imprimantes matricielles.

  • MTX : reconnaît les textes imprimés machine : publications, impressions laser et par jet d'encre, machines à écrire électroniques. Ce paramètre peut également être utilisé pour les textes des machines à écrire manuelles avec une encre de bonne qualité, les textes de qualité courrier (LQ) ou quasi-courrier (NLQ) des imprimantes matricielles, et les textes de qualité brouillon.

  • OMR : utilisé pour détecter les marques (coches) dans les questionnaires, les bulletins de vote, les tests éducatifs et les rapports ou bons de commande, lorsque les documents à traiter sont de type formulaire et remplis à la main.

  • PLUS2 et PLUS3 : PLUS2W et PLUS3W sont des moteurs de vote qui combinent les résultats des autres moteurs de reconnaissance de texte OMNIFONTCSDK. Différentes combinaisons de moteurs sont proposées dans plusieurs modes. Le module de reconnaissance reconnaît les textes imprimés machine : publications, impressions laser et par jet d'encre, machines à écrire électroniques. Fonctionne également avec les textes saisis au moyen de machines à écrire manuelles avec une encre de bonne qualité.

NonGriddedTableDetect

  • true (par défaut), false

Si cette valeur est réglée sur true, les tableaux qui n'ont pas de quadrillage sont reconnus plus efficacement.If set to true, tables that have no grid lines will be detected more confidently.

OcrPageMaximum

  • Tout nombre entier (par défaut : 25)

Indique le nombre de pages extraites par OCR/Dynapdf dans DocuWare Desktop. Si cette clé est définie, elle écrase la valeur OcrPageMaximum.
Utilisé uniquement si les paramètres de reconnaissance de texte sont utilisés dans une configuration de traitement de documents DocuWare.

ProcessingMode

  • AUTO (par défaut)

  • NORMAL

  • GRAPHICS_ONLY

  • PDF_PM_TEXT_ONLY

  • PDF_PM_TEXT_ONLY_EXT

  • PDF_PM_AS_IMAGE

RecognitionMode

Indique l'utilisation des données de texte provenant de fichiers PDF ordinaires. Utilisé uniquement si les paramètres de reconnaissance de texte sont utilisés dans une configuration de traitement de documents DocuWare.

  • ALWAYSRECOGNIZE (par défaut) : combine les caractères du résultat de la reconnaissance de texte avec le texte PDF.

  • ALWAYSGETTEXT : utilise le texte du PDF.

  • ALWAYSRECOGNIZEASIMAGE : utilise le texte du PDF en se basant uniquement sur le résultat de la reconnaissance de texte pour déterminer les espaces entre les mots (méthode la plus rapide).

  • MOSTLYGETTEXT : identique au mode ALWAYSGETTEXT. Identique à ALWAYSRECOGNIZE. uniquement si un problème de codage des caractères de la police est détecté sur une page PDF.

  • Utilisé uniquement si les paramètres de reconnaissance de texte sont utilisés dans une configuration de traitement de documents DocuWare.

RejectionSymbol

  • Tout caractère qui ne fait pas partie du texte à reconnaître (par défaut : '~').

Indique le caractère à utiliser comme symbole pour les caractères non reconnus et donc rejetés dans le document final.

ReturnAllLines

  • true (par défaut), false

Si cette valeur est réglée sur true, toutes les lignes détectées par la reconnaissance de texte apparaissent dans le document final (y compris les lignes de tableaux).

SureText

  • true, false (par défaut)

Si cette valeur est réglée sur true, le texte des zones avec des bruits est également reconnu.

ThresholdForImageConversion

  • 0-255 (par défaut : 128)

Détermine les pixels qui sont convertis en noir ou en blanc lors du prétraitement de la reconnaissance de texte. Peut être utilisé lorsque des caractères clairs avec un faible contraste ne sont pas reconnus parce qu'ils sont convertis en blanc lors du prétraitement de l'image. Utiliser une valeur inférieure à 128 peut supprimer les lignes claires, par exemple, et cela peut affecter la qualité de la reconnaissance.

TreatGraphicAsFlow

  • true, false (par défaut)

Si cette valeur est réglée sur true, les zones graphiques sont traitées comme des zones de flux. Il est nécessaire d'indiquer si le texte contient des zones rouges (graphiques) avec du texte.

UseFreeFormInPageDescriptor

  • true, false (par défaut)

Régler la valeur sur true permet d'obtenir de meilleurs résultats pour les zones avec des caractères de tailles différentes. En outre, la propriété ZonehandlingModule doit être définie sur STANDARD.

UseOcrForNativePdf

  • true, false (default)

Ne doit être appliqué que si les paramètres de reconnaissance de texte sont utilisés dans une configuration de traitement de documents de DocuWare. Si cette option est définie sur true, pour les PDF natifs, Kofax (anciennement Nuance) Toolkit est utilisé pour l'extraction de texte au lieu de DynaPDF. En combinaison avec RecognitionMode = ALWAYSRECOGNIZEASIMAGE et ProcessingMode = PDF_PM_AS_IMAGE, ce paramètre impose que l'extraction de texte soit effectuée avec Kofax CSDK, toutes les pages d'un PDF natif sont rendues et la technologie OCR est utilisée pour l'extraction de texte. Le texte contenu dans le PDF natif sera ignoré. L'utilisation de ce paramètre est appropriée pour les PDF natifs où l'extraction de texte avec DynaPDF Toolkit renvoie des caractères absurdes.

ZonehandlingModule

  • AUTO (par défaut), utilise LEGACY si TradeOff est défini sur FAST. Sinon, utilise STANDARD.

  • LEGACY

  • STANDARD

  • FAST

Spécifie l'algorithme utilisé pour la décomposition de la mise en page. La modification de l'algorithme de mise en page peut être utile si aucun texte n'est reconnu pour une zone de la page d'un document qui contient du texte.