Utilisez ces configurations pour définir les paramètres de la reconnaissance de texte.
Texte : paramètres avancés
Pour certains documents, il peut s'avérer nécessaire de définir davantage de propriétés pour la reconnaissance de texte dans la configuration, situées sous Texte > Paramètres avancés.
Cette procédure n'est pas nécessaire pour la plupart des documents et elle n'est pas recommandée. S'il est toutefois nécessaire de définir des propriétés supplémentaires, DocuWare Support vous aidera volontiers à définir les bonnes propriétés en fonction de vos documents.
Vous trouverez ici une liste des propriétés avec les valeurs possibles :
Propriété | Valeurs possibles |
AutoDeskew |
Facultatif. Si cette valeur est réglée sur true, les pages du document sont redressées avant la reconnaissance du texte. La page du document d'origine n'est pas modifiée. |
AutoRotate |
Si cette valeur est réglée sur true, les pages du document sont pivotées avant la reconnaissance du texte. La page du document d'origine n'est pas modifiée. |
DespeckleMode |
Si cette valeur est réglée sur true, les pages du document sont nettoyées avant la reconnaissance du texte. La page du document d'origine n'est pas modifiée. |
FaxImageMode |
À n'utiliser que si la propriété Module est définie sur MOR. Si le fichier image à charger est un fax transmis en mode standard ou brouillon avec une faible résolution, réglez la valeur sur true. |
FillingMethod | Définit la police de texte à reconnaître.
|
Filter | Spécifie un groupe de caractères à reconnaître. Paramètre : flags. Valeur : hexadécimale allant de 0x01 à 2F.
Exemples :
|
FilterPlus |
Définit un ensemble de caractères individuels élargissant le jeu de caractères qui peuvent être reconnus. La chaîne doit contenir des caractères qui ne font pas partie des langues sélectionnées. |
Module |
|
NonGriddedTableDetect |
Si cette valeur est réglée sur true, les tableaux qui n'ont pas de quadrillage sont reconnus plus efficacement.If set to true, tables that have no grid lines will be detected more confidently. |
OcrPageMaximum |
Indique le nombre de pages extraites par OCR/Dynapdf dans DocuWare Desktop. Si cette clé est définie, elle écrase la valeur OcrPageMaximum. |
ProcessingMode |
|
RecognitionMode | Indique l'utilisation des données de texte provenant de fichiers PDF ordinaires. Utilisé uniquement si les paramètres de reconnaissance de texte sont utilisés dans une configuration de traitement de documents DocuWare.
|
RejectionSymbol |
Indique le caractère à utiliser comme symbole pour les caractères non reconnus et donc rejetés dans le document final. |
ReturnAllLines |
Si cette valeur est réglée sur true, toutes les lignes détectées par la reconnaissance de texte apparaissent dans le document final (y compris les lignes de tableaux). |
SureText |
Si cette valeur est réglée sur true, le texte des zones avec des bruits est également reconnu. |
ThresholdForImageConversion |
Détermine les pixels qui sont convertis en noir ou en blanc lors du prétraitement de la reconnaissance de texte. Peut être utilisé lorsque des caractères clairs avec un faible contraste ne sont pas reconnus parce qu'ils sont convertis en blanc lors du prétraitement de l'image. Utiliser une valeur inférieure à 128 peut supprimer les lignes claires, par exemple, et cela peut affecter la qualité de la reconnaissance. |
TreatGraphicAsFlow |
Si cette valeur est réglée sur true, les zones graphiques sont traitées comme des zones de flux. Il est nécessaire d'indiquer si le texte contient des zones rouges (graphiques) avec du texte. |
UseFreeFormInPageDescriptor |
Régler la valeur sur true permet d'obtenir de meilleurs résultats pour les zones avec des caractères de tailles différentes. En outre, la propriété ZonehandlingModule doit être définie sur STANDARD. |
UseOcrForNativePdf |
Ne doit être appliqué que si les paramètres de reconnaissance de texte sont utilisés dans une configuration de traitement de documents de DocuWare. Si cette option est définie sur true, pour les PDF natifs, Kofax (anciennement Nuance) Toolkit est utilisé pour l'extraction de texte au lieu de DynaPDF. En combinaison avec RecognitionMode = ALWAYSRECOGNIZEASIMAGE et ProcessingMode = PDF_PM_AS_IMAGE, ce paramètre impose que l'extraction de texte soit effectuée avec Kofax CSDK, toutes les pages d'un PDF natif sont rendues et la technologie OCR est utilisée pour l'extraction de texte. Le texte contenu dans le PDF natif sera ignoré. L'utilisation de ce paramètre est appropriée pour les PDF natifs où l'extraction de texte avec DynaPDF Toolkit renvoie des caractères absurdes. |
ZonehandlingModule |
Spécifie l'algorithme utilisé pour la décomposition de la mise en page. La modification de l'algorithme de mise en page peut être utile si aucun texte n'est reconnu pour une zone de la page d'un document qui contient du texte. |