Configuraciones para el reconocimiento de texto

Prev Next

Utilice estas configuraciones para definir los parámetros para el reconocimiento de texto.

Texto: Opciones avanzadas

En ciertos documentos, puede resultar necesario definir más propiedades para el reconocimiento de texto en la configuración, que se encuentra en Texto: > Opciones Avanzadas.

Tenga en cuenta que esto no es necesario para la mayoría de documentos y tampoco es recomendable. Sin embargo, si fuese necesario definir más propiedades, siempre puede ponerse en contacto con Asistencia de DocuWare. Nos encantaría ayudarle a configurar correctamente las propiedades para los documentos que necesite lo antes posible.

A continuación encontrará una lista con las propiedades más importantes y sus valores:

Propiedad

Valores posibles

AutoDeskew

  • true (predeterminado), false

Opcional. Si se establece como true, se corrige el sesgo de las páginas del documento antes de efectuar el reconocimiento de texto. Las páginas del documento original no se modifican.

AutoRotate

  • true (predeterminado), false

Si se establece como true, se giran las páginas del documento antes de efectuar el reconocimiento de texto. Las páginas del documento original no se modifican.

DespeckleMode

  • true (predeterminado), false

Si se establece como true, se eliminan las manchas de las páginas del documento antes de efectuar el reconocimiento de texto. Las páginas del documento original no se modifican

FaxImageMode

  • true (predeterminado), false

Solo debe utilizarse con la propiedad Module definida como MOR. Si el archivo de imagen que se va a cargar es un mensaje de fax transmitido en modo estándar o borrador con una resolución baja, ajuste el valor a true.

FillingMethod

Define la fuente de texto que se debe reconocer.

  • DEFAULT: sin restricciones para los módulos de reconocimiento.

  • DASHDIGIT: consulte, por ejemplo, Dash Digit Font (Module: MAT).

  • DRAFTDOT9: se emplea para impresiones de matriz de puntos de 9 pines (Module: PLUS3, PLUS2, DOT, MTX).

  • DRAFTDOT24: se emplea para impresiones de matriz de puntos de 24 pines (Module: PLUS3, PLUS2, MOR, FRX, MTX).

  • DOTDIGIT: consulte, por ejemplo, Dot Digit Font (Module: MAT).

  • OCRA: consulte, por ejemplo, OCRA font (Module: MOR, MTX, MAT, RER).

  • OCRB: consulte, por ejemplo, OCRB font (Module: MOR, MTX, MAT, RER).

  • OMNIFONT (predeterminado): se emplea para textos impresos a máquina con cualquier tipo de letra no muy estilizada (Module: PLUS3, PLUS2, MOR, FRX, MTX).

  • OMR: se emplea para zonas con una o varias casillas que se consideran marcadas o no marcadas (Module: OMR).

Filter

Especifica el conjunto de caracteres que debe reconocerse. Parámetro: flags. Valor: hexadecimal que va de 0x01 a 2F.

  • 0x01: Dígitos

  • 0x02: Letras mayúsculas

  • 0x04: Letras minúsculas

  • 0x08: Caracteres de puntuación, otros caracteres

  • 0x10: Otros caracteres

  • 0x20: Caracteres especificados en la opción FilterPlus

Muestras:

  • 0x06: Todos los caracteres de un alfabeto

  • 0x07: Caracteres alfanuméricos

  • 0x21: Números y caracteres definidos en FilterPlus

  • 0x1F: Todos los caracteres (por defecto)

  • 0x2F: Todos los caracteres (por defecto) más los caracteres especificados en FilterPlus

FilterPlus

  • Cualquier cadena (de manera predeterminada: cadenas vacías)

Especifica un conjunto de caracteres individuales que amplían el conjunto de caracteres que se pueden reconocer. La cadena debe contener caracteres que no formen parte de los idiomas seleccionados.

Module

  • AUTO (predeterminado)

  • ASIAN: proporciona servicios de reconocimiento para los idiomas CCJK con dirección de texto horizontal o vertical: japonés, coreano, chino tradicional y chino simplificado. También reconoce texto en árabe. Puede manejar textos breves en inglés incrustados dentro de los idiomas CCJK o texto en árabe.

  • DOT: diseñado solo para textos de matriz de puntos de 9 pines de calidad de borrador.

  • FRX: reconoce el texto impreso a máquina, p. ej., de publicaciones impresas, impresoras láser o de chorro de tinta y máquinas de escribir eléctricas. También puede aceptar texto de máquinas de escribir mecánicas en buen estado. También se debe utilizar para textos de calidad de imprenta (LQ) o cercana a la calidad de imprenta (NLQ) de impresoras de matriz de puntos.

  • MAT: lee determinados grupos de caracteres de fuente fija diseñados específicamente para aplicaciones de reconocimiento de texto o de imágenes en las que no hay dos caracteres con formas similares. Cada grupo de caracteres tiene su propio método de relleno.

  • MOR: reconoce el texto impreso a máquina, p. ej., de publicaciones impresas, impresoras láser o de chorro de tinta y máquinas de escribir eléctricas. También puede aceptar texto de máquinas de escribir mecánicas en buen estado. Y también se puede utilizar para textos de calidad de imprenta (LQ) o cercana a la calidad de imprenta (NLQ) de impresoras de matriz de puntos.

  • MTX: reconoce el texto impreso a máquina, p. ej., de publicaciones impresas, impresoras láser o de chorro de tinta y máquinas de escribir eléctricas. También puede utilizarse para textos de buena calidad de máquinas de escribir mecánicas, para textos de calidad de imprenta o cercana a la calidad de imprenta de impresoras de matriz de puntos y para textos de calidad de borrador.

  • OMR: se utiliza para reconocer marcas ópticas (marcas de verificación) en cuestionarios, papeletas de votación, exámenes de aprendizaje y hojas de pedidos o informes, cuando los documentos que se procesan son de tipo formulario y suelen rellenarse a mano.

  • PLUS2 y PLUS3: los motores PLUS2W y PLUS3W son motores de votación que combinan los resultados de los otros motores de reconocimiento de texto OMNIFONT del CSDK. En diferentes modos de compensación, utilizan diferentes combinaciones de motores. Este módulo reconoce el texto impreso a máquina, p. ej., de publicaciones impresas, impresoras láser o de chorro de tinta y máquinas de escribir eléctricas. También puede aceptar texto de máquinas de escribir mecánicas en buen estado.

NonGriddedTableDetect

  • true (predeterminado), false

Si se establece como true, resulta más fácil detectar las tablas que no tienen líneas de cuadrícula

OcrPageMaximum

  • Cualquier número entero (de manera predeterminada: 25)

Especifica el número de páginas que se extraen mediante OCR/Dynapdf en DocuWare Desktop. Si se especifica este valor, se sobrescribe el valor OcrPageMaximum.
 Solo se utiliza si la configuración de reconocimiento de texto se utiliza en una configuración de procesamiento de documentos de DocuWare.

ProcessingMode

  • AUTO (predeterminado)

  • NORMAL

  • GRAPHICS_ONLY

  • PDF_PM_TEXT_ONLY

  • PDF_PM_TEXT_ONLY_EXT

  • PDF_PM_AS_IMAGE

Solo se utiliza si la configuración de reconocimiento de texto se utiliza en una configuración de procesamiento de documentos de DocuWare.

RecognitionMode

  • ALWAYSRECOGNIZE (predeterminado): combina los caracteres del resultado del reconocimiento de texto con el texto del PDF.

  • ALWAYSGETTEXT: utiliza el texto del PDF.

  • ALWAYSRECOGNIZEASIMAGE: utiliza el texto del PDF basándose solo en el resultado del reconocimiento de texto para determinar los espacios entre palabras (más rápido).

  • MOSTLYGETTEXT: igual que el modo ALWAYSGETTEXT. Solo si se detecta un problema de codificación de caracteres de la fuente en una página PDF, actúa igual que ALWAYSRECOGNIZE.

Especifica el uso de datos de texto procedentes de archivos PDF normales. Solo se utiliza si la configuración de reconocimiento de texto se utiliza en una configuración de procesamiento de documentos de DocuWare.

RejectionSymbol

  • Cualquier carácter que no forme parte del texto que se va a reconocer (predeterminado: '~').

Especifica el carácter que se utilizará como símbolo para los caracteres no reconocidos y, por tanto, rechazados en el documento final.

ReturnAllLines

  • true (predeterminado), false

Si se establece como true, todas las líneas que el reconocimiento de texto pueda detectar se devolverán en la captura de texto (incluidas las líneas de las tablas).

SureText

  • true (predeterminado), false

Si se establece como true, también se reconoce el texto de las zonas marcadas como borrosas.

ThresholdForImageConversion

  • 0-255 (predeterminado: 128)

Determina qué píxeles se convierten en blanco o negro durante el procesamiento previo del reconocimiento de texto. Puede utilizarse cuando no se reconocen los caracteres brillantes con poco contraste porque se convierten en blanco en el procesamiento previo de la imagen. El uso de un valor inferior a 128 puede eliminar las líneas brillantes, por ejemplo, y esto puede afectar a la calidad del reconocimiento.

TreatGraphicAsFlow

  • true, false (predeterminado)

Si se establece como true, las zonas gráficas se tratarán como zonas de flujo. Se debe especificar si la captura de texto tiene zonas rojas (gráficos) que contienen texto.

ZonehandlingModule

  • AUTO (predeterminado), utiliza LEGACY si TradeOff está configurado como FAST, en caso contrario utiliza STANDARD.

  • LEGACY

  • STANDARD

  • FAST

Obligatorio; define el algoritmo de descomposición de diseño de página que se utiliza.