Intelligent Document Processing の概要

DocuWare Intelligent Document Processing (IDP) は、人工知能を使用してドキュメントを処理します。これには、ドキュメントの分割、分類、およびインデックス付けのためのデータ抽出が含まれます。

ドキュメントの処理、特にインデックス付けは、DocuWare におけるすべてのプロセスの基盤となります。法的規則は完璧にインデックス付けされたドキュメントを必要とし、ドキュメント検索やビジネスプロセスはドキュメントのインデックスデータに基づいて行われ、データが抽出されれば効率化できます。請求書番号、ベンダー名、契約日などのインデックス値こそが、保存されたファイルを検索可能で実行可能なレコードに変えるものです。IDP はこの作業を引き受けます。ドキュメントの内容を読み取り、関連情報を識別し、DocuWare のインデックスフィールドに書き込みます。

IDP が解決する課題

ほとんどのビジネスドキュメントは非構造化です。スキャンされた PDF、メール添付ファイル、または撮影されたページとして届き、サプライヤーごとにドキュメントの形式が異なります。必要な情報はページのどこかにありますが、予測可能なデータ構造にはなっていません。これらのファイルから手作業で有用なデータを抽出するのは、時間がかかり、繰り返しが多く、ミスが発生しやすい作業です。従来の自動化手法では固定テンプレートを使ってこれを解決しようとしますが、サプライヤーがレイアウトを変更したり、新しいドキュメントタイプが現れたりすると、すぐに使えなくなってしまいます。

IDP は異なるアプローチを取ります。固定的なルールに頼るのではなく、実際のドキュメントから学習する人工知能を使用します。AI はドキュメントタイプを認識し、関連するフィールドを見つけ、レイアウト、言語、スキャン品質のばらつきに対応します。サプライヤーやフォーマットごとに別々のテンプレートを必要としません。その結果、ドキュメントを固定構造に押し込めるのではなく、ドキュメントに適応する処理パイプラインが実現します。

情報: 構造化データと非構造化データ
構造化データは、データベース、スプレッドシート、XML など、明確に定義されたスキーマの中に存在します。各情報には決まった場所と既知のフォーマットがあります。非構造化データはそれ以外のすべてです。スキャンされた請求書は非構造化です。なぜなら、請求書番号はあるサプライヤーのドキュメントでは右上隅にあり、別のサプライヤーではページの中央にあるかもしれないからです。契約書、納品書、ほとんどのビジネス文書も同様です。情報は存在しますが、その位置はドキュメントごとに異なります。

IDP がドキュメントを処理する仕組み

IDP に入るすべてのドキュメントは、同様の一連のステップを経ます。プロセスはバックグラウンドで自動的に実行され、ほとんどの構成ではユーザーの操作は一切不要です。新しい IDP セットアップの初期段階や、リスクの高いドキュメントなど、人間によるチェックが必要なプロセスでは、ユーザーが抽出された値を確認・修正してからアーカイブするオプションの検証ステップを追加できます。

前処理、分割、分類

プロセスは前処理から始まります。IDP は光学文字認識 (OCR) を実行し、画像品質を補正し、ページを整列させることで、受信ファイルを準備します。目的は、ドキュメントがどのように取り込まれたかにかかわらず、クリーンで読み取り可能な入力を生成することです。

次は分割です。多くの実際のシナリオでは、ドキュメントは一度に 1 つずつ届くわけではありません。スキャナーのオペレーターが 15 枚の請求書の束をデバイスに送り込み、1 つの PDF を生成するかもしれません。 IDP は、バーコードや区切りページがなくても、1 つのドキュメントがどこで終わり、次が始まるかを検出し、ファイルを個別のドキュメントに分割します。それぞれを独立して処理できます。

ドキュメントが分離されたら、分類が始まります。IDP は各ドキュメントを確認し、そのタイプを判定します。請求書、納品書、契約書、発注書、または組織で定義したドキュメントクラスです。このステップにより、IDP は内容を抽出し、各ドキュメントをアーカイブできます。

抽出とアーカイブ

ドキュメントタイプが識別されると、IDP は実際の内容の抽出に進みます。すべてのドキュメントには、ビジネスプロセスに関連する情報が含まれています。たとえば請求書の場合、これらは請求書番号、日付、ベンダー名、合計金額です。契約書の場合は、契約 ID、発効日、関係者などです。IDP の用語では、これらの情報の各項目はフィールドと呼ばれます。IDP が探すべきフィールドはお客様が決定します。

IDP はこれらのフィールドをドキュメント内で見つけ、その値を読み取り、対応する DocuWare のインデックスフィールドに書き込みます。このステップが完了すると、ドキュメントは検索可能になり、後続のプロセスに利用できる状態になります。

最後に、完全にインデックス付けされたドキュメントが対象のファイルキャビネットに保存されます。請求書承認プロセスなどのワークフローが構成されている場合、ドキュメントが到着するとすぐに自動的に開始されます。ユーザーから見ると、ドキュメントは適切なメタデータとともに適切な場所に表示され、まるで誰かが手作業で整理したかのようです。

AI モデルの種類

IDP は 3 種類の AI モデルを使用し、それぞれが上記の中核的な処理ステップの 1 つを担当します。DocuWare では、これらのモデルはエージェントとも呼ばれます。

分割モデルは、複数ページのファイル内でドキュメントの境界を検出します。これらは内容のみに基づいて動作し、テキスト、レイアウト、または構造があるドキュメントから別のドキュメントに切り替わるタイミングを認識します。バーコード、空白ページ、固定ページ数は必要ありません。これにより、オペレーターが事前に分類せずに混在した紙の束をスキャンするメールルームのシナリオで特に有用です。
分類モデルは、各ドキュメントをお客様が定義したドキュメントクラスに割り当てます。これらのクラスは、組織のニーズに応じて大まかにも具体的にも設定できます。シンプルなセットアップでは「請求書」「納品書」「その他」を区別するだけかもしれません。より高度なセットアップでは、「国内請求書」「国際請求書」「クレジットノート」「プロフォーマ請求書」を区別するかもしれません。モデルは例から学習するため、ドキュメントの構成が時間とともに変化しても、分類はそれに合わせて進化できます。
抽出モデルは、詳細なデータ抽出を行います。モデルが抽出すべきフィールドを定義します。請求書番号、日付、明細項目、合計、その他プロセスに関連するあらゆる情報です。モデルは、サプライヤーごとにレイアウトが異なる場合や、スキャン品質が悪い場合でも、これらの値を見つけ出します。200 社の異なるサプライヤーからの請求書を処理する経理チームを考えてみてください。各サプライヤーごとにテンプレートを維持する代わりに、単一の抽出モデルがすべてを処理します。

モデルの入手方法

すべてのモデルをゼロから構築する必要はありません。シナリオに応じていくつかの方法から選択でき、同じ IDP セットアップ内で組み合わせることもできます。

事前構築済みモデル

一般的なユースケースには、すぐに使える事前構築済みモデルが用意されています。これらは標準的な請求書抽出や基本的なドキュメント分割などのシナリオをカバーし、トレーニングや構成は不要です。ドキュメントが広く使用されているフォーマットに従っている場合、開始するには事前構築済みモデルだけで十分かもしれません。

DocuWare ファイルキャビネットからトレーニングされたモデル

DocuWare に大量のドキュメントがすでにアーカイブされている場合は、それらをトレーニングデータとして使用できます。IDP モデルは、DocuWare 設定 > DocuWare IDP から直接トレーニングできます。トレーニングドキュメントが含まれるファイルキャビネットを選択してトレーニングを開始すると、結果として得られるモデルは実際のファイルの特定のフォーマット、レイアウト、内容に合わせて調整されます。トレーニングには最大 24 時間かかる場合がありますが、待つ必要はありません。その間にワークフローの構成を続けることができます。

IDP Platform 上のカスタムモデル

特殊または複雑な要件には、スタンドアロンの IDP Platform 上で完全にカスタムなモデルを作成できます。このプラットフォームは、ドキュメントが DocuWare にアーカイブされているかどうかにかかわらず、あらゆるドキュメントタイプをサポートしており、通常は DocuWare パートナーまたは担当者の支援を受けて使用されます。

カスタムモデルは 2 つの方法で構築できます。クラシックなアプローチでは、サンプルドキュメントをアップロードし、関連フィールドにマークを付け、モデルをトレーニングし、結果を確認します。この方法は時間と労力がかかりますが、非常に高い精度を実現します。
Gen AI アプローチは仕組みが異なり、シンプルなセットアップと高精度を両立します。ドキュメントに注釈を付ける前に、モデルが何を抽出すべきかを自然言語の指示で記述します。たとえば「請求書番号を抽出する」「メールアドレスのドメイン部分のみを返す」「ヘッダー領域で納品日を見つける」などです。モデルはトレーニングフェーズなしですぐに動作を開始します。これにより、多くのシンプルなユースケースだけでなく、概念実証や迅速に結果が必要な状況にも適しています。ドキュメントを扱いながらモデルをトレーニングし、保存中に検証したい場合にも適しています。
モデルはトレーニングデータでトレーニング、改良、テストを継続することで、可能な限り高い精度を得ることができます。

IDP がドキュメントフローに組み込まれる場所

IDP は、ドキュメントが DocuWare に入る時点で処理を行います。最も一般的な 2 つのエントリーポイントは、メールインポートと DocuWare Desktop Apps です。

メールインポート:
メールインポートでは、DocuWare がメールボックスを監視し、受信メッセージを自動的にインポートするように構成します。このセットアップに IDP 構成を追加すると、添付された PDF はファイルキャビネットに届く前に分類およびインデックス付けされます。典型的な例は、1 日に数十件の請求書 PDF を受信する買掛金メールボックスです。IDP は各添付ファイルを分類し、主要なフィールドを抽出し、手動操作なしでドキュメントをアーカイブします。詳細はメールインポート用 IDP の構成をご覧ください。
DocuWare Desktop Apps:
DocuWare Desktop Apps では、Scan または Import プラグインを介して追加されたドキュメントが同じ IDP パイプラインを通過します。DocuWare Scan で取り込まれた紙の請求書や、Import プラグインで持ち込まれた既存の PDF ファイルは、自動的に分割、分類、インデックス付け、アーカイブされます。詳細は DocuWare Desktop Apps 用 IDP の構成をご覧ください。

よくある質問

どの程度の精度が期待できますか？

精度はいくつかの要因に依存します。スキャン品質、ドキュメントレイアウトの多様性、事前構築済み、プロンプトベース、または注釈トレーニング済みのモデルを使用しているかどうかなどです。事前構築済みモデルは標準的なドキュメントに適しています。注釈付きデータでトレーニングされたカスタムモデルは通常、最高の精度に達します。一般的に、トレーニングデータがより代表的であるほど、結果は良くなります。普遍的な数値はありませんが、信頼度スコアを時間の経過とともに監視し、それに応じてセットアップを調整できます。

どのドキュメントフォーマットと言語がサポートされていますか？

IDP は PDF ファイルを処理します。これはスキャンおよびメールで送信されるビジネスドキュメントの最も一般的なフォーマットです。TIFF や JPEG などの他のフォーマットのドキュメントは、前処理中に変換されます。IDP は複数の言語をサポートしています。サポートされる言語の正確なセットは、モデルと構成に依存します。お客様の特定のシナリオの詳細については、DocuWare パートナーにお問い合わせください。

カスタムモデルを本番環境に投入するにはどのくらい時間がかかりますか？

GenAI アプローチでは、数分以内にデータの抽出を開始できます。トレーニングフェーズはありません。注釈ベースのモデルでは、タイムラインは注釈を付けるドキュメントの数とドキュメントレイアウトの多様性によって異なります。トレーニング自体は開始後最大 24 時間かかる場合があります。実際には、最初の注釈から本番環境対応モデルまでに通常かかる時間は、数週間ではなく数日です。

ドキュメントレイアウトが変更されたときにモデルを再トレーニングできますか？

はい。サプライヤーが請求書のフォーマットを変更したり、新しいドキュメントタイプが現れたりした場合、既存のモデルを追加のトレーニングデータで更新できます。新しいモデルをゼロから構築する必要はありません。DocuWare ファイルキャビネットからトレーニングされたモデルでは、更新されたドキュメントを含む新しいトレーニングを開始できます。

Documentation Index