Konfigurationen für Texterkennung

Prev Next

In diesen Konfigurationen legen Sie die Einstellungen für die Barcode-Erkennung fest.

Text: Erweiterte Einstellungen

Für manche Dokumente kann es erforderlich sein, in der Konfiguration weitere Eigenschaften für die Texterkennung festzulegen, und zwar unter Text > Mehr Optionen > Erweiterte Einstellungen.

Dies ist für die meisten Dokumente nicht notwendig und wird auch nicht empfohlen. Sollte es trotzdem nötig sein, weitere Eigenschaften zu definieren, unterstützt Sie der DocuWare Support gern dabei, die richtigen Eigenschaften für Ihre spezifischen Dokumente einzurichten.

Hier finden Sie die Eigenschaften zusammen mit den möglichen Werten aufgelistet:

Eigenschaft

Mögliche Werte

AutoDeskew

  • true (Standard), false

Optional. Wenn auf true gesetzt, werden die Dokumentseiten vor der Texterkennung gerade ausgerichtet. Die Originalseiten des Dokuments werden nicht verändert.

AutoRotate

  • true (Standard), false

Wenn auf true gesetzt, werden die Dokumentseiten vor der Texterkennung gedreht. Die Originalseiten des Dokuments werden nicht verändert.

DespeckleMode

  • true (Standard), false

Wenn auf true gesetzt, werden die Dokumentseiten vor der Texterkennung von Flecken befreit. Die Originalseiten des Dokuments werden nicht verändert.

FaxImageMode

  • true, false (Standard)

Sollte nur verwendet werden, wenn die Eigenschaft Module auf MOR gesetzt ist. Falls es sich bei der zu ladenden Bilddatei um eine Faxnachricht handelt, die im Modus "Standard" oder "Entwurf" mit einer niedrigen Auflösung übertragen wurde, setzen Sie den Wert auf true.

FillingMethod

  • DEFAULT: Keine Einschränkungen für Texterkennungsmodule.

  • DASHDIGIT: Siehe zum Beispiel Dash Digit Font (Module: MAT).

  • DRAFTDOT9: Bezeichnet einen 9-poligen Entwurf eines Nadeldrucks (Module: PLUS3, PLUS2, DOT, MTX).

  • DRAFTDOT24: Bezeichnet einen 24-poligen Entwurf eines Nadeldrucks (Module: PLUS3, PLUS2, MOR, FRX, MTX)

  • DOTDIGIT: Siehe zum Beispiel Dot Digit Font (Module: MAT).

  • OCRA: Siehe zum Beispiel OCRA font (Module: MOR, MTX, MAT, RER).

  • OCRB: Siehe zum Beispiel OCRB font (Module: MOR, MTX, MAT, RER).

  • OMNIFONT (Standard): Bezeichnet einen maschinell gedruckten Text mit einer beliebigen, nicht stark stilisierten Schriftart (Module: PLUS3, PLUS2, MOR, FRX, MTX).

  • OMR: Bezeichnet einen Bereich mit einem oder mehreren Kontrollkästchen, die als markiert oder nicht markiert bewertet werden (Module: OMR).

Legt den Textfont fest, der verwendet werden soll.

Filter

Legt eine Untergruppe des zu erkennenden Zeichensatzes fest. Parameter: flags. Wert: hexadezimal von 0x01-2F.

  • 0x01: Ziffern

  • 0x02: Großbuchstaben

  • 0x04: Kleinbuchstaben

  • 0x08: Interpunktionszeichen, andere Zeichen

  • 0x10: Andere Zeichen

  • 0x20: In FilterPlus defiiierte Zeichen

Beispiele:

  • 0x06: Alle Zeichen eines Alphabets

  • 0x07: Alphanumerische Zeichen

  • 0x21: Nummern und Zeichen, in FilterPlus definierte Zeichen

  • 0x1F: Alle Zeichen (Standard)

  • 0x2F: Alle Zeichen (Standard) plus die in FilterPlus definierten Zeichen

FilterPlus

  • Beliebige Zeichenkette (Standard: leere Zeichenkette)

Gibt einen Satz von einzelnen Zeichen an, der den Satz der zu erkennenden Zeichen erweitert. Sollte Zeichen enthalten, die nicht Teil der ausgewählten Sprachen sind.

Module

  • AUTO (Standard)

  • ASIAN: Bietet Dienste für die Erkennung von CCJK-Sprachen mit horizontaler oder vertikaler Textrichtung: Japanisch, Koreanisch, Traditionelles Chinesisch und Vereinfachtes Chinesisch. Erkennt auch arabischen Text. Kann kurze eingebettete englische Texte innerhalb von CCJK- oder arabischem Text verarbeiten.

  • DOT: Nur vorgesehen für 9-polige Dot-Matrix-Texte in Entwurfsqualität.

  • FRX: Erkennt maschinell gedruckten Text, d. h. von gedruckten Publikationen, Laser- oder Tintenstrahldruckern und elektrischen Schreibmaschinen, Output von mechanischen Schreibmaschinen in gutem Zustand sowie von LQ- oder NLQ-Output von Nadeldruckern.

  • MAT: Erkennt bestimmte Gruppen von Zeichen mit fester Schriftart, die speziell für Texterkennungs- oder Bildgebungsanwendungen entwickelt wurden, bei denen keine zwei Zeichen ähnliche Formen haben. Jede Zeichengruppe hat ihre eigene Füllmethode.

  • MOR: Erkennt maschinell gedruckten Text, d. h. von gedruckten Publikationen, Laser- oder Tintenstrahldruckern und elektrischen Schreibmaschinen; Output von mechanischen Schreibmaschinen in gutem Zustand und von LQ- oder NLQ-Ausgaben von Nadeldruckern verwendet werden.

  • MTX: Erkennt maschinell gedruckten Text, d. h. von gedruckten Publikationen, Laser- oder Tintenstrahldruckern und elektrischen Schreibmaschinen, Output in guter Qualität von mechanischen Schreibmaschinen sowie Output mit Buchstaben- oder buchstabenähnlicher Qualität von Nadeldruckern und für Entwurfsqualität verwendet werden.

  • OMR: Erkennt optische Markierungen (Häkchen) in Fragebögen, Stimmzetteln, Bildungstests und Berichts- oder Bestellbögen, bei denen die zu verarbeitenden Dokumente formularartig sind und in der Regel von Hand ausgefüllt werden.

  • PLUS2 und PLUS3: Die Engines PLUS2W und PLUS3W sind Voting-Engines, die die Ergebnisse der anderen OMNIFONT-Engines für Texterkennung des CSDK kombinieren. In verschiedenen Trade-off-Modi verwenden sie unterschiedliche Engine-Kombinationen. Dieses Erkennungsmodul erkennt maschinell gedruckten Text, d. h. von gedruckten Publikationen, Laser- oder Tintenstrahldruckern und elektrischen Schreibmaschinen sowie Output von mechanischen Schreibmaschinen in gutem Zustand.

NonGriddedTableDetect

  • true (Standard), false

Wenn auf true gesetzt, werden Tabellen, die keine Gitternetzlinien haben, mit größerer Sicherheit erkannt.

OcrPageMaximum

  • Beliebige Ganzzahl (Standard: 25)

Gibt die Anzahl der Seiten an, die von OCR/Dynapdf in DocuWare Desktop extrahiert werden. Wenn dieser Schlüssel gesetzt ist, überschreibt er den Wert OcrPageMaximum. Wird nur verwendet, wenn die Einstellungen für Texterkennung in einer Dokumentverarbeitungs-Konfiguration von DocuWare genutzt werden.

ProcessingMode

  • AUTO (Standard)

  • NORMAL

  • GRAPHICS_ONLY

  • PDF_PM_TEXT_ONLY

  • PDF_PM_TEXT_ONLY_EXT

  • PDF_PM_AS_IMAGE

Sollte nur verwendet werden, wenn die Einstellungen für Texterkennung in einer Dokumentverarbeitungs-Konfiguration von DocuWare genutzt werden.

RecognitionMode

  • ALWAYSRECOGNIZE (Standard): Kombiniert die Zeichen aus dem Ergebnis der Texterkennung mit dem PDF-Text.

  • ALWAYSGETTEXT: Verwendet den PDF-Text.

  • ALWAYSRECOGNIZEASIMAGE: Verwendet den PDF-Text und stützt sich dabei nur auf das Ergebnis der Texterkennung, um die Leerzeichen zwischen den Wörtern zu bestimmen (am schnellsten).

  • MOSTLYGETTEXT: Entspricht dem Modus ALWAYSGETTEXT. Nur wenn auf einer PDF-Seite ein Problem mit der Kodierung von Schriftzeichen festgestellt wird, ist er gleich ALWAYSRECOGNIZE.

Legt die Verwendung von Textdaten aus normalen PDF-Dateien fest. Sollte nur verwendet werden, wenn die Einstellungen für Texterkennung in einer Dokumentverarbeitungs-Konfiguration von DocuWare genutzt werden.

RejectionSymbol

  • Alle Zeichen, die nicht Teil des zu erkennenden Textes sind (Standard: '~')

Gibt das Zeichen an, das im finalen Ausgabedokument als Symbol für die nicht erkannten und daher zurückgewiesenen Zeichen verwendet werden soll.

ReturnAllLines

  • true (Standard), false

Wenn auf true gesetzt, werden alle Zeilen, die durch die Texterkennung erkannt werden können, im Textshot wiedergegeben (einschließlich der Zeilen in Tabellen).

SureText

  • true, false (Standard)

Wenn auf true gesetzt,wird auch Text in Zonen, die als verrauscht gekennzeichnet sind, erkannt.

ThresholdForImageConversion

  • 0-255 (Standard: 128)

Legt fest, welche Pixel bei der Vorverarbeitung der Texterkennung in Schwarz oder Weiß umgewandelt werden. Kann verwendet werden, wenn helle Zeichen mit geringem Kontrast nicht erkannt werden, weil sie bei der Bildvorverarbeitung in Weiß umgewandelt werden. Bei einem Wert unter 128 können z. B. helle Linien entfernt werden, was die Erkennungsqualität beeinträchtigen kann.

TreatGraphicAsFlow

  • true, false (Standard)

Wenn auf true gesetzt, werden grafische Zonen als Fließzonen behandelt. Sollte festgelegt werden, wenn der Textshot rote (grafische) Zonen mit Text enthält.

UseFreeFormInPageDescriptor

  • true, false (Standard)

Wenn auf true gesetzt, können bessere Ergebnisse für Zonen erzielt werden, die Zeichen unterschiedlicher Größe enthalten. Außerdem muss die Eigenschaft ZonehandlingModule auf STANDARD gesetzt werden.

UseOcrForNativePdf

  • true, false (Standard)

Sollte nur verwendet werden, wenn die Einstellungen für Texterkennung in einer Dokumentverarbeitungs-Konfiguration von DocuWare verwendet werden. Wenn auf true gesetzt, wird bei nativen PDFs anstelle von DynaPDF das Toolkit von Kofax (ehemals Nuance) für die Textextraktion verwendet. In Kombination mit RecognitionMode = ALWAYSRECOGNIZEASIMAGE und ProcessingMode = PDF_PM_AS_IMAGE erzwingt diese Einstellung, dass die Textextraktion mit Kofax CSDK durchgeführt wird, alle Seiten eines nativen PDFs gerendert werden und die OCR-Technologie zur Textextraktion verwendet wird. Der in der nativen PDF-Datei enthaltene Text wird ignoriert. Diese Einstellung ist für native PDFs geeignet, bei denen die Textextraktion mit DynaPDF Toolkit unsinnige Zeichen liefert.

ZonehandlingModule

  • AUTO (Standard), verwendet LEGACY, wenn TradeOff auf FAST eingestellt ist, andernfalls verwendet es STANDARD.

  • LEGACY

  • STANDARD

  • FAST

Gibt den Algorithmus an, der für die Zerlegung des Seitenlayouts verwendet wird. Das Ändern des Seitenlayout-Algorithmus kann hilfreich sein, wenn für einen Bereich einer Dokumentseite, der Text enthält, kein Text erkannt wird.