Configuraciones para el reconocimiento de texto

Utilice estas configuraciones para definir los parámetros para el reconocimiento de texto.

Texto: Opciones avanzadas

En ciertos documentos, puede resultar necesario definir más propiedades para el reconocimiento de texto en la configuración, que se encuentra en Texto: > Opciones Avanzadas.

Tenga en cuenta que esto no es necesario para la mayoría de documentos y tampoco es recomendable. Sin embargo, si fuese necesario definir más propiedades, siempre puede ponerse en contacto con Asistencia de DocuWare. Nos encantaría ayudarle a configurar correctamente las propiedades para los documentos que necesite lo antes posible.

A continuación encontrará una lista con las propiedades más importantes y sus valores:

Propiedad	Valores posibles
AutoDeskew	true (predeterminado), false Opcional. Si se establece como true, se corrige el sesgo de las páginas del documento antes de efectuar el reconocimiento de texto. Las páginas del documento original no se modifican.
AutoRotate	true (predeterminado), false Si se establece como true, se giran las páginas del documento antes de efectuar el reconocimiento de texto. Las páginas del documento original no se modifican.
DespeckleMode	true (predeterminado), false Si se establece como true, se eliminan las manchas de las páginas del documento antes de efectuar el reconocimiento de texto. Las páginas del documento original no se modifican
FaxImageMode	true (predeterminado), false Solo debe utilizarse con la propiedad Module definida como MOR. Si el archivo de imagen que se va a cargar es un mensaje de fax transmitido en modo estándar o borrador con una resolución baja, ajuste el valor a true.
FillingMethod	Define la fuente de texto que se debe reconocer. DEFAULT: sin restricciones para los módulos de reconocimiento. DASHDIGIT: consulte, por ejemplo, Dash Digit Font (Module: MAT). DRAFTDOT9: se emplea para impresiones de matriz de puntos de 9 pines (Module: PLUS3, PLUS2, DOT, MTX). DRAFTDOT24: se emplea para impresiones de matriz de puntos de 24 pines (Module: PLUS3, PLUS2, MOR, FRX, MTX). DOTDIGIT: consulte, por ejemplo, Dot Digit Font (Module: MAT). OCRA: consulte, por ejemplo, OCRA font (Module: MOR, MTX, MAT, RER). OCRB: consulte, por ejemplo, OCRB font (Module: MOR, MTX, MAT, RER). OMNIFONT (predeterminado): se emplea para textos impresos a máquina con cualquier tipo de letra no muy estilizada (Module: PLUS3, PLUS2, MOR, FRX, MTX). OMR: se emplea para zonas con una o varias casillas que se consideran marcadas o no marcadas (Module: OMR).
Filter	Especifica el conjunto de caracteres que debe reconocerse. Parámetro: flags. Valor: hexadecimal que va de 0x01 a 2F. 0x01: Dígitos 0x02: Letras mayúsculas 0x04: Letras minúsculas 0x08: Caracteres de puntuación, otros caracteres 0x10: Otros caracteres 0x20: Caracteres especificados en la opción FilterPlus Muestras: 0x06: Todos los caracteres de un alfabeto 0x07: Caracteres alfanuméricos 0x21: Números y caracteres definidos en FilterPlus 0x1F: Todos los caracteres (por defecto) 0x2F: Todos los caracteres (por defecto) más los caracteres especificados en FilterPlus
FilterPlus	Cualquier cadena (de manera predeterminada: cadenas vacías) Especifica un conjunto de caracteres individuales que amplían el conjunto de caracteres que se pueden reconocer. La cadena debe contener caracteres que no formen parte de los idiomas seleccionados.
Module	AUTO (predeterminado) ASIAN: proporciona servicios de reconocimiento para los idiomas CCJK con dirección de texto horizontal o vertical: japonés, coreano, chino tradicional y chino simplificado. También reconoce texto en árabe. Puede manejar textos breves en inglés incrustados dentro de los idiomas CCJK o texto en árabe. DOT: diseñado solo para textos de matriz de puntos de 9 pines de calidad de borrador. FRX: reconoce el texto impreso a máquina, p. ej., de publicaciones impresas, impresoras láser o de chorro de tinta y máquinas de escribir eléctricas. También puede aceptar texto de máquinas de escribir mecánicas en buen estado. También se debe utilizar para textos de calidad de imprenta (LQ) o cercana a la calidad de imprenta (NLQ) de impresoras de matriz de puntos. MAT: lee determinados grupos de caracteres de fuente fija diseñados específicamente para aplicaciones de reconocimiento de texto o de imágenes en las que no hay dos caracteres con formas similares. Cada grupo de caracteres tiene su propio método de relleno. MOR: reconoce el texto impreso a máquina, p. ej., de publicaciones impresas, impresoras láser o de chorro de tinta y máquinas de escribir eléctricas. También puede aceptar texto de máquinas de escribir mecánicas en buen estado. Y también se puede utilizar para textos de calidad de imprenta (LQ) o cercana a la calidad de imprenta (NLQ) de impresoras de matriz de puntos. MTX: reconoce el texto impreso a máquina, p. ej., de publicaciones impresas, impresoras láser o de chorro de tinta y máquinas de escribir eléctricas. También puede utilizarse para textos de buena calidad de máquinas de escribir mecánicas, para textos de calidad de imprenta o cercana a la calidad de imprenta de impresoras de matriz de puntos y para textos de calidad de borrador. OMR: se utiliza para reconocer marcas ópticas (marcas de verificación) en cuestionarios, papeletas de votación, exámenes de aprendizaje y hojas de pedidos o informes, cuando los documentos que se procesan son de tipo formulario y suelen rellenarse a mano. PLUS2 y PLUS3: los motores PLUS2W y PLUS3W son motores de votación que combinan los resultados de los otros motores de reconocimiento de texto OMNIFONT del CSDK. En diferentes modos de compensación, utilizan diferentes combinaciones de motores. Este módulo reconoce el texto impreso a máquina, p. ej., de publicaciones impresas, impresoras láser o de chorro de tinta y máquinas de escribir eléctricas. También puede aceptar texto de máquinas de escribir mecánicas en buen estado.
NonGriddedTableDetect	true (predeterminado), false Si se establece como true, resulta más fácil detectar las tablas que no tienen líneas de cuadrícula
OcrPageMaximum	Cualquier número entero (de manera predeterminada: 25) Especifica el número de páginas que se extraen mediante OCR/Dynapdf en DocuWare Desktop. Si se especifica este valor, se sobrescribe el valor OcrPageMaximum. Solo se utiliza si la configuración de reconocimiento de texto se utiliza en una configuración de procesamiento de documentos de DocuWare.
ProcessingMode	AUTO (predeterminado) NORMAL GRAPHICS_ONLY PDF_PM_TEXT_ONLY PDF_PM_TEXT_ONLY_EXT PDF_PM_AS_IMAGE Solo se utiliza si la configuración de reconocimiento de texto se utiliza en una configuración de procesamiento de documentos de DocuWare.
RecognitionMode	ALWAYSRECOGNIZE (predeterminado): combina los caracteres del resultado del reconocimiento de texto con el texto del PDF. ALWAYSGETTEXT: utiliza el texto del PDF. ALWAYSRECOGNIZEASIMAGE: utiliza el texto del PDF basándose solo en el resultado del reconocimiento de texto para determinar los espacios entre palabras (más rápido). MOSTLYGETTEXT: igual que el modo ALWAYSGETTEXT. Solo si se detecta un problema de codificación de caracteres de la fuente en una página PDF, actúa igual que ALWAYSRECOGNIZE. Especifica el uso de datos de texto procedentes de archivos PDF normales. Solo se utiliza si la configuración de reconocimiento de texto se utiliza en una configuración de procesamiento de documentos de DocuWare.
RejectionSymbol	Cualquier carácter que no forme parte del texto que se va a reconocer (predeterminado: '~'). Especifica el carácter que se utilizará como símbolo para los caracteres no reconocidos y, por tanto, rechazados en el documento final.
ReturnAllLines	true (predeterminado), false Si se establece como true, todas las líneas que el reconocimiento de texto pueda detectar se devolverán en la captura de texto (incluidas las líneas de las tablas).
SureText	true (predeterminado), false Si se establece como true, también se reconoce el texto de las zonas marcadas como borrosas.
ThresholdForImageConversion	0-255 (predeterminado: 128) Determina qué píxeles se convierten en blanco o negro durante el procesamiento previo del reconocimiento de texto. Puede utilizarse cuando no se reconocen los caracteres brillantes con poco contraste porque se convierten en blanco en el procesamiento previo de la imagen. El uso de un valor inferior a 128 puede eliminar las líneas brillantes, por ejemplo, y esto puede afectar a la calidad del reconocimiento.
TreatGraphicAsFlow	true, false (predeterminado) Si se establece como true, las zonas gráficas se tratarán como zonas de flujo. Se debe especificar si la captura de texto tiene zonas rojas (gráficos) que contienen texto.
ZonehandlingModule	AUTO (predeterminado), utiliza LEGACY si TradeOff está configurado como FAST, en caso contrario utiliza STANDARD. LEGACY STANDARD FAST Obligatorio; define el algoritmo de descomposición de diseño de página que se utiliza.

Configuraciones para el reconocimiento de texto

Texto: Opciones avanzadas

Versiones compatibles: DocuWare Cloud + 7.14 + 7.13 + 7.12 + 7.11 + 7.10