Intelligent Indexing es un sistema basado en algoritmos de aprendizaje autónomo que reconoce tipos de documentos comunes de forma independiente y sugiere los contenidos relevantes del documento como palabras clave. La indexación se realiza automáticamente en segundo plano.
En aras de la transparencia, en este informe técnico se explican los siguientes aspectos del sistema Intelligent Indexing:
Su arquitectura
Su método de identificación de palabras clave y algoritmos de aprendizaje autónomo
Su seguridad
De este modo, el lector se hace una idea general de cómo funciona Intelligent Indexing.
Este informe técnico se dirige a clientes (usuarios), empresas de consultoría, revistas de TI y distribuidores. Da por supuesto un cierto nivel de conocimientos técnicos sobre la estructura de las aplicaciones de software modernas, idealmente de los sistemas de gestión documental. No se requieren conocimientos detallados de versiones actuales o anteriores de DocuWare.
Introduction
El concepto de Intelligent Indexing
Intelligent Indexing permite que DocuWare clasifique documentos en tipos diferentes y que efectúe búsquedas automáticas tanto de los documentos como de las palabras clave relevantes dentro de ellos y se las sugiere al usuario. El usuario solo tiene que confirmar las sugerencias o mejorarlas. El sistema "aprende" continuamente a partir de los comentarios recibidos.
Intelligent Indexing no solo aprende de los documentos y el feedback de cada usuario individual de DocuWare, sino colectivamente de todos los usuarios de una organización DocuWare (que normalmente engloba la empresa de un cliente). De ese modo, es posible asignar automáticamente las palabras clave correctas a varios documentos sin que cada usuario tenga que aprenderlas por separado.
Tras una breve curva de aprendizaje, Intelligent Indexing sustituye gran parte de la indexación manual del usuario. La gestión documental electrónica es más rápida que el archivado en papel tradicional también en lo referente al archivado de documentos.
Arquitectura
El sistema Intelligent Indexing se ejecuta en un centro de datos. Este centro dispone de una serie de ordenadores que ejecutan Intelligent Indexing Service y una base de datos (SQL Azure). La base de datos archiva extracciones de texto completo, datos de índice, comentarios de los usuarios e información general, como el idioma del documento o el formato de la fecha, de los documentos que Intelligent Indexing analiza.
Todo el sistema Intelligent Indexing está actualmente alojado en Windows Azure, una plataforma en la nube de Microsoft, lo que garantiza una gran capacidad de ampliación y protección contra errores. La arquitectura de los servicios en la nube de Windows Azure evita periodos de inactividad incluso durante la instalación de actualizaciones de software en el sistema Intelligent Indexing. Además, una estructura de usuarios y funciones garantiza que solo los usuarios autorizados tengan acceso a la información de los documentos archivados.
Se utilizan los siguientes centros de datos:
Ámsterdam (Países Bajos) para los clientes de la región EMEA
Virginia (EE.UU.) para clientes de América del Norte y del Sur
Tokio (Japón) para clientes de Japón
Nueva Gales del Sur (Australia) para clientes de Australia y otros países de Asia-Pacífico.
Para los clientes de DocuWare Cloud, el centro de datos utilizado para la Indexación Inteligente está siempre en la misma región que el centro de datos de DocuWare Cloud.
Intelligent Indexing en el sistema DocuWare
Vinculación de DocuWare con Intelligent Indexing
Los clientes de DocuWare con instalaciones in situ deben registrarse en el servicio por separado. Al hacerlo, el cliente recibirá un archivo de configuración en formato XML que deberá importar en la Configuración de DocuWare para el sistema DocuWare de ese cliente. A continuación, el sistema DocuWare puede utilizar los datos contenidos en ese archivo para vincularse con Intelligent Indexing Service. Para los clientes de DocuWare Cloud, el sistema está preconfigurado.
Se sugieren palabras clave para los documentos de las bandejas de DocuWare, cuya configuración debe adaptarse al efecto. Además de habilitar Intelligent Indexing Service, debe seleccionarse un diálogo de almacenamiento preparado para Intelligent Indexing. Dentro del diálogo de almacenamiento se define la asignación de las categorías para las que Intelligent Indexing debe hacer sugerencias, como tipo de documento, fecha, contacto o cantidad, a determinados campos de índice de DocuWare. Cuando se archivan documentos a los que Intelligent Indexing ha asignado palabras clave, estas se introducen en los campos de índice del diálogo de almacenamiento.
Más información sobre la Configuración de Intelligent Indexing.
Flujo de trabajo con Intelligent Indexing
Cada vez que se envía un documento a una bandeja configurada para Intelligent Indexing, se generan extracciones de texto completo que se transfieren automáticamente a Intelligent Indexing Service. El servicio analiza las extracciones de texto completo, busca documentos similares ya conocidos y ofrece sugerencias de palabras clave. Dependiendo del grado de certeza de Intelligent Indexing en haber identificado correctamente las palabras clave sugeridas, los documentos se resaltan en la bandeja con uno de los tres colores del "sistema de semáforo". En el caso de los clientes que utilizan el servicio en la nube Intelligent Indexing en combinación con un sistema DocuWare in situ, el documento se añade a la cuota del cliente en este momento.
Cuando el usuario desea archivar un documento en el archivador a través del diálogo de almacenamiento asignado, las palabras clave sugeridas por Intelligent Indexing se muestran en los respectivos campos de índice del diálogo. El código de colores de tres niveles ayuda a identificar la probabilidad de que la palabra clave sea correcta. El documento se visualiza también en el Visor de DocuWare.
El usuario proporciona información al sistema Intelligent Indexing al aceptar o cambiar las palabras clave. El sistema emplea algoritmos de aprendizaje autónomo para analizar dicha información, lo que permite a Intelligent Indexing indexar correctamente documentos similares en el futuro. Para que el aprendizaje sea lo más eficiente posible, el usuario no debe escribir las palabras clave directamente en el diálogo de almacenamiento cuando las modifique o añada, sino que debe aplicarlas utilizando One-Click Indexing. Se trata de una función del Visor de DocuWare que transfiere al diálogo de almacenamiento palabras/números/datos del documento que se ve en la pantalla. De este modo, Intelligent Indexing recibe información sobre la posición de la palabra en el documento, así como sobre la propia palabra, lo que mejora el proceso de aprendizaje.
Más información sobre el uso de Intelligent Indexing.
Reconocimiento de indexación automática
El reconocimiento de indexación automática es la función principal de Intelligent Indexing. Se basa principalmente en tres áreas: 1) los distintos métodos de lectura y análisis de documentos individuales, 2) los espacios de modelos en los que se buscan documentos similares previamente procesados por Intelligent Indexing, y 3) los algoritmos de aprendizaje autónomo.
Reconocimiento de indexación
Intelligent Indexing utiliza numerosos métodos para determinar las palabras clave correctas para los documentos. Para algunos de ellos, DocuWare cuenta con patentes en Alemania y Estados Unidos. El sistema tiene un alto rendimiento a pesar de que ejecuta muchos algoritmos diferentes para cada documento. Además, admite diferentes idiomas y áreas culturales, procesa documentos escaneados en ángulo sin problemas y analiza los elementos del documento independientemente de su página dentro del documento o de su ubicación en esa página.
Para cada campo de índice de un documento, Intelligent Indexing evalúa los resultados de cada método y utiliza algoritmos combinatorios para determinar la palabra clave más probable. La palabra escogida se le muestra al usuario directamente en el diálogo de almacenamiento, mientras que las palabras clave algo menos probables se muestran en una lista de selección.
Intelligent Indexing aprende de los documentos de referencia qué datos quiere leer un usuario. Cuantos más documentos de referencia se lean, mayor será la precisión y fiabilidad.
Espacio de modelos
En Intelligent Indexing el término "espacio de modelos" se refiere al componente que utiliza información de un documento ya "aprendido" para ayudar a indexar un documento nuevo y que también archiva todos los resultados del aprendizaje. Un espacio de modelos siempre es específico de una organización, es decir, los extractos de texto completo y los resultados del aprendizaje se resumen por organización y se separan estrictamente de los datos de otras organizaciones de DocuWare.
Información de los usuarios
Cada vez que un usuario confirma o modifica las palabras clave, Intelligent Indexing analiza esta información, la gestiona en el espacio de modelos y utiliza la información recogida para futuros documentos similares.
Un ejemplo de ello es la forma en que Intelligent Indexing extrae información de las correcciones que un usuario ha hecho a las palabras clave sugeridas. Por ejemplo, si el reconocimiento óptico de caracteres lee Docuware GmbH (con "w" minúscula) en lugar de DocuWare GmbH y el usuario lo corrige debidamente, la próxima vez que se procese un documento similar se sugerirá DocuWare GmbH con las mayúsculas adecuadas.
Pero las palabras en sí no son todo lo que el sistema puede aprender. También recoge los metadatos correspondientes, como su posición en el documento. La próxima vez que haya otro documento del mismo tipo, se sugerirá una palabra de la misma posición en el nuevo documento como palabra clave.
Concepto de seguridad
Transferencia del contenido del documento y de las palabras clave
El Web Client e Intelligent Indexing Service se comunican entre sí para cargar extracciones de texto completo de documentos, enviar sugerencias de indexación y enviar comentarios. Toda esta comunicación está cifrada en HTTPS para proteger el contenido de los documentos y las palabras clave, de manera que nadie externo pueda acceder a esta información.
Archivado del contenido del documento
El sistema Intelligent Indexing archiva extracciones de texto completo, datos de índice, feedback de los usuarios e información general, como el idioma del documento o el formato de la fecha de los documentos que analiza. La base de datos utilizada para ello está alojada en Microsoft Azure, lo que garantiza una gran capacidad de ampliación y protección contra errores. Además, una estructura de usuarios y funciones garantiza que solo los usuarios autorizados tengan acceso a la información de los documentos archivados. Así, con el permiso del cliente, el servicio de asistencia de DocuWare puede acceder a las extracciones de texto completo para analizar y resolver posibles problemas.
Si se solicita, los datos también pueden volver a eliminarse del sistema Intelligent Indexing.
Eliminación de datos al salir del sistema
Si un cliente de DocuWare decide dejar de utilizar el sistema Intelligent Indexing, el espacio de modelos específico de la organización asociado, así como las extracciones de texto completo de los documentos, se eliminan del sistema Intelligent Indexing.