ホワイトペーパー Intelligent Indexing

Prev Next

Intelligent Indexing は自己学習アルゴリズムに基づいたシステムで、一般的なドキュメントタイプを個別に認識し、関連ドキュメントのコンテンツをインデックスとして提案します。インデックス作成は、バックグラウンドで自動的に実行されます。

透明性を確保するために、このホワイトペーパーでは、Intelligent Indexing システムの次の側面について説明します。

  • アーキテクチャ

  • インデックスと自己学習アルゴリズムを識別するための手法

  • セキュリティ

これにより、閲覧者は Intelligent Indexing の動作全般にわたる全体像を把握することができます。

このホワイトペーパーは、クライアント (ユーザー)、コンサルティング会社、IT 関連の雑誌、配信パートナーを対象としています。最新のソフトウェアアプリケーションの構造 (可能であれば、ドキュメント管理システム) に関する一定レベルの技術的知識をお持ちであることを前提としています。現在の DocuWare または以前の DocuWare バージョンの詳細な知識は必要ありません。

まえがき

Intelligent Indexing の概念

DocuWare は Intelligent Indexing を使用することにより、ドキュメントをさまざまな種類に分類し、自動的に検索し、ドキュメント内またはドキュメントに関連するインデックスを提案します。ユーザーは提案を確認するか、改良させるだけです。フィードバックにより、システムを継続的に「学習」させます。

Intelligent Indexing は、個々の DocuWare ユーザーからのドキュメントやフィードバックのみを学習するのではなく、DocuWare 組織 (通常は顧客の会社を含む) のすべてのユーザーから集合的に学習します。このように、各ユーザーは個別に学習することなく、多くのドキュメントに適切なインデックスを自動的に割り当てることができます。

短い習得期間を過ぎると、Intelligent Indexing がユーザーの手動によるインデックス作成に概ね置き換えられます。そのため、電子ドキュメント管理は、ドキュメントのアーカイブにおいても、従来の紙ベースのファイリング作業よりも高速に処理することができます。

アーキテクチャ

Intelligent Indexing システムは、データセンターで実行されます。Intelligent Indexing Service とデータベース (Azure SQL) を実行している複数のコンピュータで構成されています。データベースには、Intelligent Indexing が分析したドキュメントのフルテキスト抽出、インデックスデータ、ユーザーのフィードバック、一般情報 (ドキュメントの言語、日付形式など) が保管されます。

現在 Intelligent Indexing システム全体は、Windows Azure (Microsoft 提供のクラウドプラットフォーム) でホストされています。これにより、高いスケーラビリティとフェイルセーフを実現できます。Windows Azure クラウドサービスのアーキテクチャは、Intelligent Indexing システムにソフトウェア更新プログラムをインストール中の場合でも、ダウンタイムを回避します。さらに、ユーザーと役割の構造により、認可されたユーザーのみが保管されたドキュメント情報にアクセスできるようになります。

以下のデータセンターを利用しています。

  • アムステルダム(オランダ)(EMEA地域のお客様向け

  • 北米・南米のお客様にはバージニア州(米国)

  • 日本からのお客様には、東京(日本)

  • オーストラリアおよび一部のアジア太平洋地域のお客様には、ニューサウスウェールズ州(オーストラリア)をご案内しています。

DocuWare Cloudをご利用のお客様は、Intelligent Indexingに使用するデータセンターは、常にDocuWare Cloudのデータセンターと同じリージョンに設置されます。

DocuWare システムの Intelligent Indexing

Intelligent Indexing と DocuWare をリンクする

オンプレミスインストールの DocuWare のお客様は、サービスに個別に登録する必要があります。これにより、お客様は XML 形式でファイルを受信し、お客様の DocuWare システムの DocuWare 構成にインポートすることができます。その後、DocuWare システムは、ファイルに含まれるデータを使用して Intelligent Indexing Service にリンクすることができます。DocuWare Cloud のお客様の場合、システムは事前構成されています。

DocuWare 文書トレイ内のドキュメントに対しインデックスが提案されるため、それに応じて構成する必要があります。Intelligent Indexing Service を有効にすることに加えて、これには Intelligent Indexing 用に準備された保管ダイアログの選択が含まれます。保管ダイアログ内で、Intelligent Indexing が提案を行うカテゴリ (ドキュメントタイプ、日付、連絡先、金額など) の、特定の DocuWare インデックスフィールドへの割り当てが定義されます。Intelligent Indexing がインデックスを割り当てたドキュメントを保管する場合、インデックスは保管ダイアログのインデックスフィールドに入力されます。

詳細については、Intelligent Indexing の構成を参照してください。

Intelligent Indexing を使用したワークフロー

Intelligent Indexing 用に設定された文書トレイにドキュメントが送信されると、フルテキスト抽出が生成され、自動的に Intelligent Indexing Service に転送されます。このサービスでは、フルテキスト抽出の分析、既知の類似ドキュメントの検索、候補となるインデックスの提案を行います。Intelligent Indexing の信頼度 (提案されたインデックスが正しく識別されたかどうか) に応じて、ドキュメントは「信号システム」に従って 3 色のいずれかの色で文書トレイでハイライトされます。Intelligent Indexing クラウドサービスとオンプレミスの DocuWare システムとを組み合わせて使用​​しているお客様の場合は、この時点でドキュメントがお客様の使用領域に追加されます。

ユーザーが割り当てられた保管ダイアログ経由でファイルキャビネットにドキュメントを保存する場合、Intelligent Indexing が提案したインデックスがダイアログのそれぞれのインデックスフィールドに表示されます。3 つのレベルを色で識別することにより、各インデックスの正確性の確度を把握できます。また、ドキュメントは DocuWare Viewer にも表示されます。

ユーザーは、インデックスを受け入れるか、または変更することにより、Intelligent Indexing システムにフィードバックを提供します。このシステムでは自己学習アルゴリズムを採用してフィードバックを分析し、将来的には、Intelligent Indexing により類似するドキュメントが正しくインデックス作成されることを可能にします。可能な限り強力な学習効果を実現するには、ユーザーはインデックスの変更時、または追加時に保管ダイアログに直接入力するのではなく、One-Click Indexing を使用して適用する必要があります。DocuWare Viewer のこの機能は、保管ダイアログに表示されたドキュメントから単語/数字/データを引き継ぐものです。このようにして、Intelligent Indexing はドキュメント内の単語の位置付けや単語自体に関するフィードバックを受け取り、効果的に学習を向上させます。

詳細については、Intelligent Indexing を使用するを参照してください。

インデックスの自動認識

インデックスの自動認識は、Intelligent Indexing のコア機能です。主に 3 つの領域に基づいています。(1) 個々のドキュメントを読み取り、分析するためのさまざまな方法、(2) Intelligent Indexing によって以前に処理された類似ドキュメントを検索するモデ​​ル領域、(3) 自己学習アルゴリズムです。

インデックス認識方法

Intelligent Indexing では、さまざまな方法を使用して、ドキュメントの正しいインデックスを特定します。DocuWare は、これらの方法のいくつかについて、ドイツと米国で特許を取得しています。このシステムは、ドキュメントごとに様々なアルゴリズムの実行を可能にする、高いパフォーマンスを有しています。さらに、異なる言語や文化圏において柔軟に機能し、斜めにスキャンされたドキュメントをスムーズに処理でき、ドキュメント内のページやそのページ上の配置に関係なく、ドキュメント要素の分析を行うことができます。

ドキュメント内の各インデックスフィールドについて、Intelligent Indexing は、メソッドごとの結果を評価したり、組み合わせアルゴリズムを使用して最も妥当と考えられるインデックスを特定します。特定された単語は、保管ダイアログで直接ユーザーに表示されます。また、選択リストには、妥当性が低いインデックスが表示されます。

Intelligent Indexing は参照文書から、ユーザーがどのデータを読み出したいかを学習します。より多くの参照文書が読み込まれるほど、精度と信頼性が高まる。

モデル領域

Intelligent Indexing では、モデル領域はすでに学習済みのドキュメントの情報を使用して、新しいドキュメントのインデックス作成を行い、すべてのトレーニング結果を保存するコンポーネントを参照します。モデル領域は常に組織固有になります。フルテキストの抜粋とトレーニング結果が組織ごとに要約され、他の DocuWare 組織のデータから厳密に分離されています。

ユーザーからのフィードバック

ユーザーがインデックスを確認または変更するたびに、Intelligent Indexing はこのフィードバックを分析してモデル領域で管理します。収集した情報は、今後の類似ドキュメントのために使用されます。

Intelligent Indexing が、提案されたインデックスに対してユーザーが行った修正に関する情報を抽出する方法は、この事例の 1 つにあたります。例えば、OCR処理が DocuWare GmbH ではなく Docuware GmbH (小文字の「w」) を読み取り、ユーザーが修正した場合、次回類似したドキュメントが処理される際には、適切な大文字が使用され DocuWare GmbH と提案されるようになります。

システムが学習できるのは、単語そのものだけではありません。また、ドキュメント内での位置など、対応するメタデータも取得します。次回同じ種類の別のドキュメントが存在する場合、新しいドキュメントの同じ位置にある単語がインデックスとして提案されます。

セキュリティの概念

ドキュメントのコンテンツとインデックスを転送する

Web Client と Intelligent Indexing Service 間で通信し、ドキュメントのフルテキスト抽出をアップロードしてインデックス作成の提案を送信し、フィードバックを送信します。これらの通信はすべて HTTPS で暗号化されており、ドキュメントのコンテンツとインデックスをサードパーティによるアクセスから保護します。

ドキュメントのコンテンツを保存する

Intelligent Indexing システムには、Intelligent Indexing が分析したドキュメントのフルテキスト抽出、インデックスデータ、ユーザーのフィードバック、一般情報 (ドキュメントの言語、日付形式など) が保管されます。これに使用されるデータベースは Microsoft Azure によってホストされており、高いスケーラビリティとフェイルセーフを実現しています。さらに、ユーザーと役割の構造により、認可されたユーザーのみが保管されたドキュメント情報にアクセスできるようになります。これにより、顧客の権限で、DocuWare サポートはフルテキスト抽出にアクセスして潜在的な問題の分析および解決を行うことができるようになります。
データを Intelligent Indexing システムから再度削除することもできます (要求がある場合)。

システムの終了時にデータを削除する

DocuWare のお客様が Intelligent Indexing システムの使用を停止することを決定した場合、関連する組織固有のモデル領域とドキュメントのフルテキスト抽出は Intelligent Indexing システムから削除されます。