Utilice estas configuraciones para definir los parámetros para el reconocimiento de texto.
Texto: Opciones avanzadas
En ciertos documentos, puede resultar necesario definir más propiedades para el reconocimiento de texto en la configuración, que se encuentra en Texto: > Opciones Avanzadas.
Tenga en cuenta que esto no es necesario para la mayoría de documentos y tampoco es recomendable. Sin embargo, si fuese necesario definir más propiedades, siempre puede ponerse en contacto con Asistencia de DocuWare. Nos encantaría ayudarle a configurar correctamente las propiedades para los documentos que necesite lo antes posible.
A continuación encontrará una lista con las propiedades más importantes y sus valores:
Propiedad | Valores posibles |
AutoDeskew |
Opcional. Si se establece como true, se corrige el sesgo de las páginas del documento antes de efectuar el reconocimiento de texto. Las páginas del documento original no se modifican. |
AutoRotate |
Si se establece como true, se giran las páginas del documento antes de efectuar el reconocimiento de texto. Las páginas del documento original no se modifican. |
DespeckleMode |
Si se establece como true, se eliminan las manchas de las páginas del documento antes de efectuar el reconocimiento de texto. Las páginas del documento original no se modifican |
FaxImageMode |
Solo debe utilizarse con la propiedad Module definida como MOR. Si el archivo de imagen que se va a cargar es un mensaje de fax transmitido en modo estándar o borrador con una resolución baja, ajuste el valor a true. |
FillingMethod | Define la fuente de texto que se debe reconocer.
|
Filter | Especifica el conjunto de caracteres que debe reconocerse. Parámetro: flags. Valor: hexadecimal que va de 0x01 a 2F.
Muestras:
|
FilterPlus |
Especifica un conjunto de caracteres individuales que amplían el conjunto de caracteres que se pueden reconocer. La cadena debe contener caracteres que no formen parte de los idiomas seleccionados. |
Module |
|
NonGriddedTableDetect |
Si se establece como true, resulta más fácil detectar las tablas que no tienen líneas de cuadrícula |
OcrPageMaximum |
Especifica el número de páginas que se extraen mediante OCR/Dynapdf en DocuWare Desktop. Si se especifica este valor, se sobrescribe el valor OcrPageMaximum. |
ProcessingMode |
Solo se utiliza si la configuración de reconocimiento de texto se utiliza en una configuración de procesamiento de documentos de DocuWare. |
RecognitionMode |
Especifica el uso de datos de texto procedentes de archivos PDF normales. Solo se utiliza si la configuración de reconocimiento de texto se utiliza en una configuración de procesamiento de documentos de DocuWare. |
RejectionSymbol |
Especifica el carácter que se utilizará como símbolo para los caracteres no reconocidos y, por tanto, rechazados en el documento final. |
ReturnAllLines |
Si se establece como true, todas las líneas que el reconocimiento de texto pueda detectar se devolverán en la captura de texto (incluidas las líneas de las tablas). |
SureText |
Si se establece como true, también se reconoce el texto de las zonas marcadas como borrosas. |
ThresholdForImageConversion |
Determina qué píxeles se convierten en blanco o negro durante el procesamiento previo del reconocimiento de texto. Puede utilizarse cuando no se reconocen los caracteres brillantes con poco contraste porque se convierten en blanco en el procesamiento previo de la imagen. El uso de un valor inferior a 128 puede eliminar las líneas brillantes, por ejemplo, y esto puede afectar a la calidad del reconocimiento. |
TreatGraphicAsFlow |
Si se establece como true, las zonas gráficas se tratarán como zonas de flujo. Se debe especificar si la captura de texto tiene zonas rojas (gráficos) que contienen texto. |
ZonehandlingModule |
Obligatorio; define el algoritmo de descomposición de diseño de página que se utiliza. |