Intelligent Indexing ist ein auf selbstlernenden Algorithmen basiertes System, das gängige Dokumenttypen selbstständig erkennt und die relevanten Dokumentinhalte als Indexbegriffe vorschlägt. Die Indexierung erfolgt automatisch und für den Nutzer unsichtbar.
Um Transparenz zu schaffen, erläutert dieses White Paper das System Intelligent Indexing, insbesondere
die Architektur,
die Arbeitsweise, also die Erkennung der Indexbegriffe und die selbstlernenden Algorithmen
sowie die Sicherheit.
Der Leser erhält dadurch einen fundierten Einblick in die gesamte Funktionsweise von Intelligent Indexing.
Die technischen Mitarbeiter bei Kunden, Beratungsunternehmen, Fachzeitschriften und Vertriebspartnern werden gleichermaßen angesprochen. Vorausgesetzt wird lediglich ein technisches Grundlagenwissen über den Aufbau moderner Software-Anwendungen, idealerweise von Dokumentenmanagement-Systemen. Detaillierte Kenntnisse aktueller oder früherer Versionen von DocuWare sind nicht nötig.
Einleitung
Das Prinzip von Intelligent Indexing
Mit Intelligent Indexing klassifiziert DocuWare Dokumente in verschiedene Typen und sucht automatisch die relevanten Indexbegriffe in beziehungsweise zu den Dokumenten und schlägt sie dem Benutzer vor. Dieser bestätigt nur noch die Vorschläge oder verbessert sie. Anhand des Feedbacks lernt das System ständig hinzu.
Intelligent Indexing lernt nicht nur von den Dokumenten und Feedbacks des einzelnen DocuWare Benutzers, sondern zusammen von allen Benutzern aus einer DocuWare Organisation. Eine DocuWare Organisation entspricht dabei der Kunden-Firma. Auf diese Weise können viele Dokumente automatisch mit den passenden Indexbegriffen versehen werden, ohne dass sie von dem jeweiligen Benutzer angelernt werden mussten.
Spätestens nach einer kurzen Einlernphase entfällt somit durch Intelligent Indexing für den Anwender größtenteils die manuelle Indexierung. Damit ist das elektronische Dokumentenmanagement nun auch bei der Archivierung der Dokumente schneller als die klassische Papierablage.
Architektur
Das Intelligent Indexing System läuft in einem Rechenzentrum. Es besteht aus mehreren Rechnern, auf denen der Intelligent Indexing Service läuft, und einer Datenbank (SQL Azure). In dieser werden der Volltextauszug, die Indexdaten, das Benutzerfeedback und allgemeine Informationen wie Dokumentsprache, Datumsformat etc. der von Intelligent Indexing ausgewerteten Dokumente gespeichert.
Das gesamte Intelligent Indexing System wird zurzeit auf Windows Azure gehostet, einer Cloud-Plattform von Microsoft. Dadurch sind eine hohe Skalierbarkeit und Ausfallsicherheit gewährleistet. Sogar bei Software-Updates des Intelligent Indexing Systems werden Ausfallzeiten durch die Architektur der Windows Azure Cloud Services vermieden. Ein Nutzer- und Rollenkonzept stellt zudem sicher, dass ausschließlich autorisierte Benutzer Zugriff auf die abgelegten Dokumentinformationen erhalten.
Folgende Datenzentren werden verwendet:
Amsterdam (Niederlande) für Kunden aus der Region EMEA
Virginia (USA) für Kunden aus Nord- und Südamerika
Tokio (Japan) für Kunden aus Japan
New South Wales (Australien) für Kunden aus Australien und einigen weiteren asiatisch-pazifischen Ländern
Für Kunden von DocuWare Cloud ist das für Intelligent Indexing verwendetete Datenzentrum immer in der gleichen Region wie das Datenzentrum von DocuWare Cloud.
Intelligent Indexing im DocuWare System
Verbindung von Intelligent Indexing mit DocuWare
Hat ein DocuWare Kunde eine On-Premise-Installation, muss er sich für den Service registrieren. Er erhält dann eine Konfigurationsdatei im XML-Format, die er innerhalb der DocuWare Konfiguration in sein DocuWare System einspielt. Anhand der enthaltenen Daten kann sich das DocuWare System mit dem Intelligent Indexing Service verbinden.
Für Kunden von DocuWare Cloud ist das System schon vorbereitet.
Das Vorschlagen von Indexbegriffen für Dokumente erfolgt in den DocuWare Briefkörben, die dafür entsprechend konfiguriert werden müssen. Neben dem Aktivieren des Intelligent Indexing Services wählt man einen Ablagedialog aus, der für Intelligent Indexing vorbereitet wurde. Über diesen sind die Kategorien, für die Intelligent Indexing Vorschläge machen soll, wie Dokumenttyp, Datum, Kontakt, Betrag etc., den DocuWare Indexfeldern zugewiesen. Bei der Ablage von Dokumenten, die per Intelligent Indexing mit Indexbegriffen versehen worden sind, sind die Indexbegriffe dann in den entsprechenden Indexfeldern des Ablagedialogs eingetragen.
Weiterführende Informationen zur Konfiguration von Intelligent Indexing.
Arbeitsablauf mit Intelligent Indexing
Für alle Dokumente, die in einen für Intelligent Indexing eingerichteten Briefkorb gelangen, werden zunächst automatisch Volltextauszüge erstellt und anschließend an den Intelligent Indexing Service transferiert. Dieser wertet die Volltextauszüge aus, sucht nach ähnlichen schon bekannten Dokumenten und macht Vorschläge für die Indexbegriffe. Je nachdem, für wie sicher Intelligent Indexing die Erkennung der vorgeschlagenen Indexbegriffe erachtet, werden die Dokumente im DocuWare Briefkorb mit drei verschiedenen Farben im Ampelsystem markiert. Für Kunden, die den Intelligent Indexing Cloud Service in Kombination mit einem On-Premises DocuWare System verwenden, wird an dieser Stelle das Dokument mit der Quota des Kunden verrechnet.
Sobald der Benutzer ein Dokument über den zugewiesenen Ablagedialog im Archiv speichern möchte, werden die von Intelligent Indexing vorgeschlagenen Indexbegriffe in den einzelnen Indexfeldern des Dialogs angezeigt. Erneut lässt die drei-stufige Farbmarkierung die Probabilität der einzelnen Indexbegriffe erkennen. Zudem wird das Dokument im DocuWare Viewer angezeigt.
Indem der Benutzer die Indexbegriffe akzeptiert oder ändert, gibt er Feedback an das Intelligent Indexing System. Dieses wertet das Feedback durch die selbstlernenden Algorithmen aus, sodass ähnliche Dokumente in Zukunft korrekt von Intelligent Indexing indexiert werden können. Um einen möglichst hohen Lerneffekt zu erzielen, sollte der Anwender, wenn er Indexbegriffe ändert oder ergänzt, diese nicht direkt in den Ablagedialog tippen, sondern per One-Click-Indexing übernehmen. Dies ist eine Funktion im DocuWare Viewer zum Übertragen von Wörtern/Zahlen/Daten aus dem angezeigten Dokument in den Ablagedialog. Intelligent Indexing erhält als Feedback dann nicht nur den Begriff als solchen, sondern auch dessen Position im Dokument, was den Lernerfolg erhöht.
Weiterführende Informationen zur Verwendung von Intelligent Indexing.
Automatische Indexerkennung
Die automatische Indexerkennung ist das Herzstück von Intelligent Indexing. Es basiert hauptsächlich auf drei Bereichen: den verschiedene Methoden zum Auslesen und Analysieren der einzelnen Dokumente, den Modellräumen, in denen nach ähnlichen bereits von Intelligent Indexing verarbeiteten Dokumenten gesucht wird, und den selbstlernenden Algorithmen.
Indexerkennung
Intelligent Indexing verwendet eine Vielzahl von Methoden, um die richtigen Indexbegriffe zu den jeweiligen Dokumenten herauszufinden. Für einige davon hat DocuWare Patente in Deutschland und in den USA . Das System ist trotz der vielen verschiedenen Algorithmen, die pro Dokument ausgeführt werden, hoch performant. Außerdem ist es flexibel für unterschiedliche Sprach- und Kulturräume, arbeitet auch mit leicht schief eingescannten Dokumenten problemlos und wertet Dokumentenelemente unabhängig davon aus, auf welcher Dokumentseite und wo sie sich innerhalb von einer Dokumentseite befinden.
Für jeden Indexwert eines Dokuments wertet Intelligent Indexing die Ergebnisse der einzelnen Methoden aus und berechnet über kombinatorische Algorithmen den plausibelsten Indexbegriff. Dieser wird dem Anwender im Ablagedialog direkt angezeigt, weitere etwas weniger plausible Indexbegriffe werden in einer Auswahlliste angeboten.
Intelligent Indexing lernt anhand von Referenzdokumenten, welche Daten ein Nutzer auslesen möchte. Je mehr Referenzdokumente ausgelesen werden, desto höher ist die Genauigkeit und Zuverlässigkeit von Intelligent Indexing.
Modellraum
Mit Modellraum wird bei Intelligent Indexing die Komponente bezeichnet, in der die Trainingsmodelle organisiert sind. Dabei ist ein Modellraum immer organisationsspezifisch, das heißt die Volltextauszüge und Trainingsergebnisse werden pro Organisation zusammengefasst und sind strikt getrennt von den Daten anderer DocuWare Organisationen.
Benutzer-Feedback
Sobald ein Benutzer Indexbegriffe bestätigt oder ändert, analysiert Intelligent Indexing dieses Feedback, verwaltet es im Modellraum und nutzt die gewonnenen Informationen für folgende ähnliche Dokumente.
Zum Beispiel extrahiert Intelligent Indexing Informationen über Korrekturen, die ein Nutzer an vorgeschlagenen Indexbegriffen durchgeführt hat. Wenn die optische Zeichenerkennung beispielsweise Docuware GmbH anstatt DocuWare GmbH ausliest, und der Anwender es entsprechend korrigiert, wird beim nächsten entsprechenden Dokument gleich DocuWare GmbH vorgeschlagen.
Aber es können nicht nur die Begriffe als solche gelernt werden, sondern auch zugehörige Metadaten wie zum Beispiel die Position der Begriffe auf dem Dokument. Für ein neues Dokument der gleichen Art würde dann an entsprechender Position ein Begriff aus dem Dokument als Indexbegriff vorgeschlagen werden.
Sicherheitskonzept
Übertragung der Dokumentinhalte und der Indexbegriffe
Zum Hochladen der Volltextauszüge der Dokumente, Senden der Indexvorschläge und Senden des Feedbacks kommunizieren der Web Client und der Intelligent Indexing Service miteinander. Die komplette Kommunikation ist HTTPS verschlüsselt, die Dokumenteninhalte und Indexbegriffe sind so vor fremden Zugriffen gesichert.
Speicherung der Dokumentinhalte
Das Intelligent Indexing System speichert von den ausgewerteten Dokumenten den Volltextauszug, die Indexdaten, das Benutzerfeedback und allgemeine Informationen wie Dokumentsprache, Datumsformat etc. Die dafür verwendete Datenbank ist bei Microsoft Azure gehostet, was hohe Skalierbarkeit und Ausfallsicherheit gewährleistet. Ein Nutzer- und Rollenkonzept stellt zudem sicher, dass ausschließlich autorisierte Benutzer Zugriff auf die abgelegten Dokumentinformationen erhalten. So kann zum Beispiel der DocuWare Support mit Erlaubnis eines Kunden auf deren Volltextauszüge zugreifen, um eventuelle Probleme zu analysieren und zu beheben.
Auf Wunsch können die Daten aus dem Intelligent Indexing System auch wieder entfernt werden.
Löschen der Daten beim Verlassen des Systems
Wenn ein DocuWare-Kunde das Intelligent Indexing System wieder verlassen will, werden der zugehörige organisationsspezifische Modellraum, und damit auch die Volltextauszüge der Dokumente, aus dem Intelligent Indexing System gelöscht.