In diesen Konfigurationen legen Sie die Einstellungen für die Barcode-Erkennung fest.
Text: Erweiterte Einstellungen
Für manche Dokumente kann es erforderlich sein, in der Konfiguration weitere Eigenschaften für die Texterkennung festzulegen, und zwar unter Text > Mehr Optionen > Erweiterte Einstellungen.
Dies ist für die meisten Dokumente nicht notwendig und wird auch nicht empfohlen. Sollte es trotzdem nötig sein, weitere Eigenschaften zu definieren, unterstützt Sie der DocuWare Support gern dabei, die richtigen Eigenschaften für Ihre spezifischen Dokumente einzurichten.
Hier finden Sie die Eigenschaften zusammen mit den möglichen Werten aufgelistet:
Eigenschaft | Mögliche Werte |
AutoDeskew |
Optional. Wenn auf true gesetzt, werden die Dokumentseiten vor der Texterkennung gerade ausgerichtet. Die Originalseiten des Dokuments werden nicht verändert. |
AutoRotate |
Wenn auf true gesetzt, werden die Dokumentseiten vor der Texterkennung gedreht. Die Originalseiten des Dokuments werden nicht verändert. |
DespeckleMode |
Wenn auf true gesetzt, werden die Dokumentseiten vor der Texterkennung von Flecken befreit. Die Originalseiten des Dokuments werden nicht verändert. |
FaxImageMode |
Sollte nur verwendet werden, wenn die Eigenschaft Module auf MOR gesetzt ist. Falls es sich bei der zu ladenden Bilddatei um eine Faxnachricht handelt, die im Modus "Standard" oder "Entwurf" mit einer niedrigen Auflösung übertragen wurde, setzen Sie den Wert auf true. |
FillingMethod |
Legt den Textfont fest, der verwendet werden soll. |
Filter | Legt eine Untergruppe des zu erkennenden Zeichensatzes fest. Parameter: flags. Wert: hexadezimal von 0x01-2F.
Beispiele:
|
FilterPlus |
Gibt einen Satz von einzelnen Zeichen an, der den Satz der zu erkennenden Zeichen erweitert. Sollte Zeichen enthalten, die nicht Teil der ausgewählten Sprachen sind. |
Module |
|
NonGriddedTableDetect |
Wenn auf true gesetzt, werden Tabellen, die keine Gitternetzlinien haben, mit größerer Sicherheit erkannt. |
OcrPageMaximum |
Gibt die Anzahl der Seiten an, die von OCR/Dynapdf in DocuWare Desktop extrahiert werden. Wenn dieser Schlüssel gesetzt ist, überschreibt er den Wert OcrPageMaximum. Wird nur verwendet, wenn die Einstellungen für Texterkennung in einer Dokumentverarbeitungs-Konfiguration von DocuWare genutzt werden. |
ProcessingMode |
Sollte nur verwendet werden, wenn die Einstellungen für Texterkennung in einer Dokumentverarbeitungs-Konfiguration von DocuWare genutzt werden. |
RecognitionMode |
Legt die Verwendung von Textdaten aus normalen PDF-Dateien fest. Sollte nur verwendet werden, wenn die Einstellungen für Texterkennung in einer Dokumentverarbeitungs-Konfiguration von DocuWare genutzt werden. |
RejectionSymbol |
Gibt das Zeichen an, das im finalen Ausgabedokument als Symbol für die nicht erkannten und daher zurückgewiesenen Zeichen verwendet werden soll. |
ReturnAllLines |
Wenn auf true gesetzt, werden alle Zeilen, die durch die Texterkennung erkannt werden können, im Textshot wiedergegeben (einschließlich der Zeilen in Tabellen). |
SureText |
Wenn auf true gesetzt,wird auch Text in Zonen, die als verrauscht gekennzeichnet sind, erkannt. |
ThresholdForImageConversion |
Legt fest, welche Pixel bei der Vorverarbeitung der Texterkennung in Schwarz oder Weiß umgewandelt werden. Kann verwendet werden, wenn helle Zeichen mit geringem Kontrast nicht erkannt werden, weil sie bei der Bildvorverarbeitung in Weiß umgewandelt werden. Bei einem Wert unter 128 können z. B. helle Linien entfernt werden, was die Erkennungsqualität beeinträchtigen kann. |
TreatGraphicAsFlow |
Wenn auf true gesetzt, werden grafische Zonen als Fließzonen behandelt. Sollte festgelegt werden, wenn der Textshot rote (grafische) Zonen mit Text enthält. |
UseFreeFormInPageDescriptor |
Wenn auf true gesetzt, können bessere Ergebnisse für Zonen erzielt werden, die Zeichen unterschiedlicher Größe enthalten. Außerdem muss die Eigenschaft ZonehandlingModule auf STANDARD gesetzt werden. |
UseOcrForNativePdf |
Sollte nur verwendet werden, wenn die Einstellungen für Texterkennung in einer Dokumentverarbeitungs-Konfiguration von DocuWare verwendet werden. Wenn auf true gesetzt, wird bei nativen PDFs anstelle von DynaPDF das Toolkit von Kofax (ehemals Nuance) für die Textextraktion verwendet. In Kombination mit RecognitionMode = ALWAYSRECOGNIZEASIMAGE und ProcessingMode = PDF_PM_AS_IMAGE erzwingt diese Einstellung, dass die Textextraktion mit Kofax CSDK durchgeführt wird, alle Seiten eines nativen PDFs gerendert werden und die OCR-Technologie zur Textextraktion verwendet wird. Der in der nativen PDF-Datei enthaltene Text wird ignoriert. Diese Einstellung ist für native PDFs geeignet, bei denen die Textextraktion mit DynaPDF Toolkit unsinnige Zeichen liefert. |
ZonehandlingModule |
Gibt den Algorithmus an, der für die Zerlegung des Seitenlayouts verwendet wird. Das Ändern des Seitenlayout-Algorithmus kann hilfreich sein, wenn für einen Bereich einer Dokumentseite, der Text enthält, kein Text erkannt wird. |