Einleitung zu Intelligent Document Processing

DocuWare Intelligent Document Processing (IDP) verarbeitet Ihre Dokumente mithilfe künstlicher Intelligenz. Dazu gehören das Trennen, die Klassifizierung und die Datenextraktion zur Indexierung von Dokumenten.

Die Verarbeitung von Dokumenten und insbesondere die Indexierung bilden die Grundlage für alle Prozesse mit DocuWare. Gesetzliche Vorgaben erfordern einwandfrei indexierte Dokumente. Dokumentsuche und Geschäftsprozesse stützen sich auf die Indexdaten der Dokumente und lassen sich nach der Extraktion der Daten effizienter gestalten. Indexwerte wie eine Rechnungsnummer, ein Lieferantenname oder ein Vertragsdatum machen aus einer abgelegten Datei einen durchsuchbaren Datensatz, mit dem Sie aktiv arbeiten können. Diese Arbeit übernimmt IDP: Die Software liest den Dokumentinhalt, erkennt die relevanten Informationen und schreibt sie in Ihre DocuWare Indexfelder.

Das Problem, das IDP löst

Die meisten Geschäftsdokumente sind unstrukturiert. Sie kommen als gescannte PDFs, E-Mail-Anhänge oder fotografierte Seiten an, und jeder Lieferant gestaltet seine Dokumente anders. Die benötigten Informationen befinden sich irgendwo auf der Seite, jedoch nicht in einer vorhersehbaren Datenstruktur. Diese Daten von Hand aus den Dateien zu gewinnen, ist langsam, eintönig und fehleranfällig. Herkömmliche Automatisierungsansätze versuchen, dies mit festen Vorlagen zu lösen. Solche Vorlagen scheitern jedoch, sobald ein Lieferant sein Layout ändert oder ein neuer Dokumenttyp auftaucht.

IDP verfolgt einen anderen Ansatz. Anstatt auf starre Regeln zu setzen, nutzt IDP künstliche Intelligenz, die aus Ihren tatsächlichen Dokumenten lernt. Die KI erkennt Dokumenttypen, findet relevante Felder und berücksichtigt Unterschiede in Layout, Sprache und Scanqualität, ohne dass für jeden Lieferanten oder jedes Format eine eigene Vorlage erforderlich ist. Das Ergebnis ist eine Verarbeitung, die sich an Ihre Dokumente anpasst, statt Ihre Dokumente in eine feste Struktur zu zwingen.

Information: Strukturiert vs. unstrukturiert
Strukturierte Daten liegen in einem klar definierten Schema vor: in einer Datenbank, einer Tabelle oder einer XML-Datei. Jede Information hat einen festen Platz und ein bekanntes Format. Unstrukturierte Daten sind alles andere. Eine gescannte Rechnung ist unstrukturiert, weil die Rechnungsnummer beim einen Lieferanten oben rechts und beim anderen in der Seitenmitte stehen kann. Dasselbe gilt für Verträge, Lieferscheine und den Großteil der Geschäftskorrespondenz. Die Informationen sind vorhanden, ihre Position variiert jedoch von Dokument zu Dokument.

So verarbeitet IDP ein Dokument

Jedes Dokument, das in IDP gelangt, durchläuft die gleiche Abfolge von Schritten. Der Prozess läuft automatisch im Hintergrund ab, und in den meisten Konfigurationen ist überhaupt kein Eingreifen durch Benutzer erforderlich. Wenn Ihr Prozess eine manuelle Prüfung verlangt, etwa in der Anfangsphase einer neuen IDP-Einrichtung oder bei besonders kritischen Dokumenten, können Sie einen optionalen Prüfschritt einfügen. Dabei kontrolliert und korrigiert ein Benutzer die extrahierten Werte vor der Archivierung.

Vorverarbeitung, Trennung und Klassifizierung

Der Ablauf beginnt mit der Vorverarbeitung: IDP bereitet die eingehende Datei auf, indem es eine Texterkennung (OCR) durchführt, die Bildqualität verbessert und die Seiten ausrichtet. Ziel ist eine saubere, gut lesbare Eingabe, unabhängig davon, wie das Dokument erfasst wurde.

Als Nächstes folgt die Trennung. In vielen praktischen Szenarien kommen Dokumente nicht einzeln an. So kann eine Person beim Scannen einen Stapel von 15 Rechnungen in ein Gerät einlegen und daraus ein einziges PDF erzeugen. IDP erkennt ohne Barcodes oder Trennseiten, wo ein Dokument endet und das nächste beginnt, und teilt die Datei in einzelne Dokumente auf, die jeweils für sich verarbeitet werden können.

Sobald die Dokumente getrennt sind, übernimmt die Klassifizierung. IDP betrachtet jedes Dokument und ermittelt dessen Typ: eine Rechnung, einen Lieferschein, einen Vertrag, eine Bestellung oder eine andere Dokumentklasse, die Sie für Ihre Organisation definiert haben. Dieser Schritt ermöglicht es IDP, Inhalte zu extrahieren und jedes Dokument zu archivieren.

Extraktion und Archivierung

Sobald der Dokumenttyp feststeht, extrahiert IDP den eigentlichen Inhalt. Jedes Dokument enthält Informationen, die für Ihren Geschäftsprozess relevant sind. Bei einer Rechnung sind das beispielsweise die Rechnungsnummer, das Datum, der Lieferantenname und der Gesamtbetrag. Bei einem Vertrag können es die Vertrags-ID, das Datum des Inkrafttretens und die beteiligten Parteien sein. In der IDP-Terminologie wird jede dieser Informationen als Feld bezeichnet. Sie entscheiden, nach welchen Feldern IDP suchen soll.

IDP findet diese Felder im Dokument, liest ihre Werte aus und schreibt sie in die entsprechenden DocuWare Indexfelder. Sobald dieser Schritt abgeschlossen ist, ist das Dokument durchsuchbar und bereit für weitere Prozesse.

Zum Abschluss wird das vollständig indexierte Dokument im Zielarchiv abgelegt. Ist ein Workflow konfiguriert, etwa ein Rechnungsfreigabeprozess, startet dieser automatisch, sobald das Dokument eintrifft. Aus Sicht der Benutzer erscheinen die Dokumente einfach am richtigen Ort mit den richtigen Metadaten, als hätte sie jemand von Hand abgelegt.

KI-Modelltypen

IDP nutzt drei Arten von KI-Modellen, die jeweils für einen der oben beschriebenen zentralen Verarbeitungsschritte zuständig sind. In DocuWare werden diese Modelle auch als Agenten bezeichnet.

Trennmodelle erkennen Dokumentgrenzen innerhalb einer mehrseitigen Datei. Sie arbeiten ausschließlich anhand des Inhalts und erkennen, wenn sich Text, Layout oder Struktur von einem Dokument zum nächsten ändern. Barcodes, Leerseiten oder feste Seitenzahlen sind dafür nicht erforderlich. Das macht sie besonders nützlich in Poststellen-Szenarien, in denen gemischte Papierstapel ohne Vorsortierung gescannt werden.
Klassifizierungsmodelle ordnen jedes Dokument einer von Ihnen definierten Dokumentklasse zu. Diese Klassen können so allgemein oder so spezifisch sein, wie Ihre Organisation es benötigt. Eine einfache Konfiguration unterscheidet vielleicht zwischen „Rechnung", „Lieferschein" und „Sonstiges". Eine fortgeschrittenere Konfiguration unterscheidet möglicherweise zwischen „Inlandsrechnung", „Auslandsrechnung", „Gutschrift" und „Proformarechnung". Das Modell lernt aus Beispielen, sodass sich die Klassifizierung mit Ihrem Dokumentbestand weiterentwickeln kann, wenn sich dieser im Laufe der Zeit ändert.
Extraktionsmodelle übernehmen die eigentliche Datenextraktion. Sie legen fest, welche Felder das Modell extrahieren soll: Rechnungsnummer, Datum, Positionen, Summen oder jede andere für Ihren Prozess relevante Information. Das Modell findet diese Werte auch dann, wenn die Layouts zwischen Lieferanten variieren oder die Scanqualität schlecht ist. Stellen Sie sich ein Finanzteam vor, das Rechnungen von 200 verschiedenen Lieferanten verarbeitet. Statt für jeden Lieferanten eine eigene Vorlage zu pflegen, deckt ein einziges Extraktionsmodell alle ab.

So gelangen Sie an Ihre Modelle

Sie müssen nicht jedes Modell von Grund auf neu erstellen. Es gibt zum Beispiel vorgefertigte Modelle sowie Modelle, die mit in DocuWare archivierten Dokumenten trainiert werden können. Je nach Szenario können Sie die Modelle auch kombinieren.

Vorgefertige Modelle

Für gängige Anwendungsfälle stehen vorgefertigte Modelle direkt zur Verfügung. Sie decken Szenarien wie die Extraktion von Standardrechnungen oder die einfache Dokumenttrennung ab und erfordern kein Training und keine Konfiguration. Wenn Ihre Dokumente weit verbreiteten Formaten folgen, reicht ein vorgefertigtes Modell für den Einstieg möglicherweise aus.

Aus DocuWare Archiven trainierte Modelle

Wenn Sie bereits eine große Menge an Dokumenten in DocuWare archiviert haben, können Sie diese als Trainingsdaten verwenden. IDP-Modelle lassen sich direkt über DocuWare Konfigurationen > DocuWare IDP trainieren. Sie wählen die Archive aus, die Ihre Trainingsdokumente enthalten, und starten das Training. Die daraus entstehenden Modelle sind auf die konkreten Formate, Layouts und Inhalte Ihrer tatsächlichen Dateien zugeschnitten. Das Training kann bis zu 24 Stunden dauern, Sie müssen jedoch nicht darauf warten. In der Zwischenzeit können Sie Ihren Workflow weiter konfigurieren.

Benutzerdefinierte Modelle auf der IDP Platform

Für spezielle oder komplexe Anforderungen können Sie auf der eigenständigen IDP Platform vollständig benutzerdefinierte Modelle erstellen. Diese Plattform unterstützt jeden Dokumenttyp, unabhängig davon, ob die Dokumente in DocuWare archiviert sind, und wird in der Regel mit Unterstützung Ihres DocuWare Partners oder Ansprechpartners genutzt.

Benutzerdefinierte Modelle lassen sich auf zwei Arten erstellen.

Beim klassischen Ansatz laden Sie Beispieldokumente hoch, markieren die relevanten Felder, trainieren das Modell und prüfen die Ergebnisse. Diese Methode erfordert mehr Zeit und Aufwand, liefert jedoch eine sehr hohe Genauigkeit.
Der Gen-AI-Ansatz funktioniert anders und verbindet eine einfache Einrichtung mit hoher Genauigkeit. Bevor Sie Dokumente annotieren, beschreiben Sie mit Anweisungen in natürlicher Sprache, was das Modell extrahieren soll, zum Beispiel „Extrahiere die Rechnungsnummer", „Gib nur den Domain-Teil der E-Mail-Adresse zurück" oder „Finde das Lieferdatum im Kopfbereich". Das Modell beginnt sofort zu arbeiten, ganz ohne Trainingsphase. Damit eignet es sich für viele einfache Anwendungsfälle, aber auch für Machbarkeitsnachweise oder Situationen, in denen Sie schnell Ergebnisse benötigen. Außerdem eignet es sich, wenn Sie das Modell während der Arbeit mit den Dokumenten trainieren und die Ergebnisse beim Ablegen prüfen möchten.
Das Modell lässt sich weiterhin mit Trainingsdaten trainieren, verfeinern und testen, um die höchstmögliche Genauigkeit zu erreichen.

Wo IDP in Ihren Dokumentfluss passt

IDP verarbeitet Dokumente an der Stelle, an der sie in DocuWare gelangen. Die beiden häufigsten Eingangswege sind der E-Mail-Import und die DocuWare Desktop Apps.

E-Mail-Import:
Für den E-Mail-Import konfigurieren Sie DocuWare so, dass es ein Postfach überwacht und eingehende Nachrichten automatisch importiert. Wenn Sie dieser Einrichtung eine IDP-Konfiguration hinzufügen, wird jedes angehängte PDF klassifiziert und indexiert, bevor es das Archiv erreicht. Ein typisches Beispiel ist ein Kreditorenbuchhaltungs-Postfach, das täglich Dutzende von Rechnungs-PDFs empfängt. IDP klassifiziert jeden Anhang, extrahiert die wichtigsten Felder und archiviert das Dokument ohne manuelles Eingreifen. Lesen Sie mehr über das Konfigurieren von IDP für den E-Mail-Import.
DocuWare Desktop Apps:
Bei den DocuWare Desktop Apps durchlaufen Dokumente, die über die Plug-ins Scan oder Import hinzugefügt werden, dieselbe IDP-Verarbeitung. Mit DocuWare Scan erfasste Papierrechnungen und über das Plug-in Import eingebrachte vorhandene PDF-Dateien werden automatisch getrennt, klassifiziert, indexiert und archiviert. Lesen Sie mehr über das Konfigurieren von IDP für die DocuWare Desktop Apps.

Häufig gestellte Fragen

Welche Genauigkeit kann ich erwarten?

Die Genauigkeit hängt von mehreren Faktoren ab: der Qualität Ihrer Scans, der Vielfalt der Dokumentlayouts und davon, ob Sie ein vorgefertigtes, ein prompt-basiertes oder ein mit Annotationen trainiertes Modell verwenden. Vorgefertigte Modelle funktionieren gut bei Standarddokumenten. Mit annotierten Daten trainierte benutzerdefinierte Modelle erreichen in der Regel die höchste Genauigkeit. Allgemein gilt: Je repräsentativer Ihre Trainingsdaten sind, desto besser sind die Ergebnisse. Es gibt keinen allgemeingültigen Wert, doch Sie können die Konfidenzwerte über einen längeren Zeitraum beobachten und Ihre Konfiguration entsprechend anpassen.

Welche Dokumentformate und Sprachen werden unterstützt?

IDP verarbeitet PDF-Dateien, das gängigste Format für gescannte und per E-Mail versandte Geschäftsdokumente. Dokumente in anderen Formaten wie TIFF oder JPEG werden während der Vorverarbeitung umgewandelt. IDP unterstützt mehrere Sprachen. Welche Sprachen genau unterstützt werden, hängt vom Modell und der Konfiguration ab. Wenden Sie sich für Einzelheiten zu Ihrem konkreten Szenario an Ihren DocuWare Partner.

Wie lange dauert es, ein benutzerdefiniertes Modell in den Produktivbetrieb zu bringen?

Mit dem GenAI-Ansatz können Sie bereits innerhalb weniger Minuten mit der Datenextraktion beginnen. Es gibt keine Trainingsphase. Bei annotationsbasierten Modellen hängt der Zeitrahmen davon ab, wie viele Dokumente Sie annotieren und wie unterschiedlich Ihre Dokumentlayouts sind. Das Training selbst kann nach dem Start bis zu 24 Stunden dauern. In der Praxis ist der Weg von der ersten Annotation bis zu einem produktionsreifen Modell meist eine Sache von Tagen, nicht von Wochen.

Kann ich ein Modell neu trainieren, wenn sich Dokumentlayouts ändern?

Ja. Wenn ein Lieferant sein Rechnungsformat ändert oder ein neuer Dokumenttyp auftaucht, können Sie bestehende Modelle mit zusätzlichen Trainingsdaten aktualisieren. Sie müssen kein neues Modell von Grund auf erstellen. Bei Modellen, die aus DocuWare Archiven trainiert wurden, können Sie einen neuen Trainingslauf starten, der die aktualisierten Dokumente einbezieht.

Documentation Index

Einleitung zu Intelligent Document Processing

Das Problem, das IDP löst

So verarbeitet IDP ein Dokument

Vorverarbeitung, Trennung und Klassifizierung

Extraktion und Archivierung

KI-Modelltypen

So gelangen Sie an Ihre Modelle

Vorgefertige Modelle

Aus DocuWare Archiven trainierte Modelle

Benutzerdefinierte Modelle auf der IDP Platform

Wo IDP in Ihren Dokumentfluss passt

Häufig gestellte Fragen

Welche Genauigkeit kann ich erwarten?

Welche Dokumentformate und Sprachen werden unterstützt?

Wie lange dauert es, ein benutzerdefiniertes Modell in den Produktivbetrieb zu bringen?

Kann ich ein Modell neu trainieren, wenn sich Dokumentlayouts ändern?

Unterstützte Versionen: DocuWare Cloud