テキスト認識の構成

テキスト認識の設定を定義するには、以下の構成を使用します。

テキスト:詳細設定

ドキュメントによっては、構成でテキスト認識のプロパティを追加で定義する必要がある場合があります ([テキスト] > [詳細設定])。

ほとんどのドキュメントではこの操作を行う必要はありません。また、推奨されません。追加のプロパティを定義する必要がある場合は、所定のドキュメントに適切なプロパティを設定できるように DocuWare Support がお客様をお手伝いいたします。

各プロパティとそれに使用できる値を、以下の表に示します。

プロパティ

使用可能な値

AutoDeskew

  • true (デフォルト)、false

オプション。true に設定すると、テキスト認識を行う前にドキュメントページの傾きが補正されます。元のドキュメントページは変更されません

Autorotate

  • true (デフォルト)、false

true に設定すると、テキスト認識を行う前にドキュメントページが回転します。元のドキュメントページは変更されません。

DespeckleMode

  • true (デフォルト)、false

true に設定すると、テキスト認識を行う前にドキュメントページの斑点状ノイズが除去されます。元のドキュメントページは変更されません。

FaxImageMode

  • true、false (デフォルト)

モジュールのプロパティが MOR に設定されている場合のみ使用します。読み込む画像ファイルが、低解像度の標準モードまたはドラフトモードで送信されたファクスメッセージの場合は、値を true に設定します。

FillingMethod

  • DEFAULT: 認識モジュールに制限はありません。

  • DASHDIGIT: Dash Digit Font の例を参照してください (Module: MAT)。

  • DRAFTDOT9: 9ピンのドラフトのドットマトリクス印刷を示します (Module: PLUS3, PLUS2, DOT、MTX)。

  • DRAFTDOT24: 24 ピンのドラフトのドットマトリクス印刷を示します (Module: PLUS3, PLUS2, MOR, FRX, MTX)。

  • DOTDIGIT: Dot Digit Font の例を参照してください (Module: MAT)。

  • HANDPRINT: ゾーン内の手書文字を示します (Module: HNR, RER)。

  • OCRA: OCRA font の例を参照してください (Module: MOR, MTX, MAT, RER)。

  • CRB: OCRB font の例を参照してください (Module: MOR, MTX, MAT, RER)。

  • OMNIFONT (デフォルト): 高度なスタイル化がなされていないフォントで機械印刷されたテキストを示します (Module: PLUS3, PLUS2, MOR, FRX, MTX)。

  • OMR: オン/オフの動作が確認されたチェックボックスが 1 つ以上あるゾーンを示します (Module: OMR)。

Filter

  • 0x1F: すべての文字 (デフォルト)

  • 0x01: 桁数

  • 0x02: 大文字

  • 0x04: 小文字

  • 0x06: 英数字

  • 0x08: 句読点文字、その他の文字

  • 0x10: その他の文字

  • 0x21: 数字

FilterPlus

  • 任意の文字列 (デフォルト: 空の文字列)

個々の文字のセットを指定して、認識可能な文字セットを拡張します。文字列には、選択した言語では使用されない文字が含まれている必要があります。

Module

  • AUTO (デフォルト)

  • ASIAN: CCJK 言語の認識サービスを提供します (縦横両方向のテキストに対応)。CCJK 言語とは、日本語、韓国語、繁体字中国語、簡体字中国語を指します。また、アラビア語のテキストも認識します。CCJK またはアラビア語のテキストに埋め込まれた短い英語テキストも処理できます。

  • DOT: ドラフト品質の 9 ピンドットマトリックステキストのみを対象に設計されています。

  • FRX: 印刷物、レーザープリンター、インクジェットプリンター、電動タイプライターなど、機械で印刷されたテキストを認識します。機械式タイプライターの出力も、状態が良ければ認識できます。また、ドットマトリクスプリンターの LQ (高品質印字) または NLQ (中品質印字) の出力にも使用します。

  • MAT: テキスト認識や画像処理アプリケーション用の固定フォント文字のうち、互いに形状の似た文字が存在しない特定のグループを読み取ります。文字グループごとに入力方法が異なります。

  • MOR: 印刷物、レーザープリンター、インクジェットプリンター、電動タイプライターなど、機械で印刷されたテキストを認識します。機械式タイプライターの出力も、状態が良ければ認識できます。また、ドットマトリクスプリンターの LQ 出力または NLQ 出力にも使用できます。

  • MTX: 印刷物、レーザープリンター、インクジェットプリンター、電動タイプライターなど、機械で印刷されたテキストを認識します。また、機械式タイプライターの品質良好な出力、ドットマトリックスプリンターの LQ 出力または NLQ 出力、あるいはドラフト品質にも使用できます。

  • OMR: 通常は手書きで記入される所定の用紙 (アンケート、投票用紙、教育目的のテスト、報告書、発注書など) などの、光学式マーク (チェックマーク) の認識に使用します。

  • PLUS2 および PLUS3: PLUS2W および PLUS3W エンジンは、CSDK の他の OMNIFONT テキスト認識エンジンの結果を統合する投票エンジンです。トレードオフモードでは、使用するエンジンの組み合わせが変化します。この認識モジュールは、印刷物、レーザープリンター、インクジェットプリンター、電動タイプライターなど、機械で印刷されたテキストを認識します。機械式タイプライターの出力も、状態が良ければ認識できます。

NonGriddedTableDetect

  • true (デフォルト)、false

true に設定すると、グリッドラインのないテーブルの検出精度が高くなります。

OcrPageMaximum

  • 任意の整数 (デフォルトでは 25)

DocuWare Desktop の OCR/Dynapdf で抽出するページの数を指定します。このキーが設定されていると、OcrPageMaximum の値が上書きされます。

DocuWare のドキュメント処理構成でテキスト認識設定を使用する場合に限り、使用します。

ProcessingMode

  • AUTO (デフォルト)

  • NORMAL

  • GRAPHICS_ONLY

  • PDF_PM_TEXT_ONLY

  • PDF_PM_TEXT_ONLY_EXT

  • PDF_PM_AS_IMAGE

  • DocuWare のドキュメント処理構成でテキスト認識設定を使用する場合に限り、使用します。

RecognitionMode

  • ALWAYSRECOGNIZE (デフォルト): テキスト認識の結果の文字と PDF のテキストを統合します。

  • ALWAYSGETTEXT: PDF のテキストを使用します。

  • ALWAYSRECOGNIZEASIMAGE: テキスト認識の結果のみに依存する PDF テキストを使用し、単語間のスペースを決定します (最速)。

  • MOSTLYGETTEXT: ALWAYSGETTEXT モードと同様です。PDF ページ上でフォントの文字コーディングの問題が検出された場合に限り、ALWAYSRECOGNIZE と同じになります。

通常の PDF ファイルに含まれるテキストデータの使用方法を指定します。DocuWare のドキュメント処理構成でテキスト認識設定を使用する場合に限り、使用します。

RejectionSymbol

  • 認識対象のテキストに含まれていない任意の文字 (デフォルトは「~」)。

最終的な出力ドキュメントで認識されずに拒否された文字を示す記号として、使用する文字を指定します。

ReturnAllLines

  • true (デフォルト)、false

true に設定すると、テキスト認識で検出されたすべての行がテキストショットで返されます (表中の行も含む)。

SureText

  • true、false (デフォルト)

true に設定すると、ノイズの多さを示すマークが付けられたゾーンでもテキストが認識されます。

ThresholdForImageConversion

  • 0 ~ 255 (デフォルトは 128)

テキスト認識の前処理で黒または白に変換するピクセルを決定します。低コントラストの明るい文字が画像の前処理で白に変換されてしまい、認識できない場合に使用できます。128 以下の値にすると、輝線などが除去され、認識の品質に影響が及ぶ恐れがあります。

TreatGraphicAsFlow

  • • true, false (デフォルト)

true に設定すると、グラフィックゾーンはフローゾーンとして扱われます。テキストが含まれた赤い (グラフィック) ゾーンがテキストショットにある場合は、これを指定する必要があります。

UseFreeFormInPageDescriptor

  • true, false (デフォルト)

true に設定すると、異なる複数のサイズの文字が含まれたゾーンでより良い結果が得られます。さらに、このZonehandlingModule プロパティを STANDARD に設定する必要があります。

UseOcrForNativePdf

  • true, false (デフォルト)

DocuWare のドキュメント処理構成でテキスト認識設定を使用する場合に限り、使用します。true に設定すると、UseOcrForNativePdf の値が上書きされます。

ZonehandlingModule

  • AUTO (デフォルト): TradeOff が FAST に設定されている場合は LEGACY を、それ以外の場合は STANDARD を使用します。

  • LEGACY

  • STANDARD

  • FAST

必須。使用するページレイアウト分解アルゴリズムを定義します。