Software OCR: programas de reconocimiento de texto de un vistazo

Notas garabateadas o la sección de deportes del periódico impreso: cuando se trata de procesar información humana analógica, todos los ordenadores alcanzan sus límites en algún momento. Aquí es donde entra en juego el reconocimiento …

Software OCR: programas de reconocimiento de texto de un vistazo

Texterkennung mit Lupe
  1. Revista
  2. »
  3. Artículo
  4. »
  5. Software
  6. »
  7. Software OCR: programas de reconocimiento de texto de un vistazo

Notas garabateadas o la sección de deportes del periódico impreso: cuando se trata de procesar información humana analógica, todos los ordenadores alcanzan sus límites en algún momento. Aquí es donde entra en juego el reconocimiento óptico de caracteres (OCR): reconoce automáticamente el texto de documentos e imágenes escaneados para digitalizarlos y procesarlos . En este artículo explicamos cómo funciona realmente el reconocimiento de texto y presentamos un resumen de los mejores programas de OCR.

  • Con la ayuda del reconocimiento óptico de caracteres, puedes convertir documentos impresos en archivos de texto editables y en los que se pueden realizar búsquedas.
  • Los programas de OCR suelen trabajar con diccionarios, por lo que son capaces de identificar diferentes idiomas.
  • Un buen software de reconocimiento de texto no tiene por qué ser automáticamente caro. También hay muchos programas gratuitos en Internet que pueden lograr excelentes resultados.

1. ¿qué es un programa de OCR y cómo funciona?

Mit OCR-Software vom Schreibblock auf den Computer.
El software de OCR se utiliza para llevar tus textos del bloc de notas al ordenador.

OCR son las siglas de«Optical Character Recognition» (reconocimiento óptico decaracteres) y en alemán suele llamarse simplemente «reconocimiento de texto «. El OCR es una tecnología utilizada para digitalizar documentos manuscritos o impresos (como páginas escaneadas o tarjetas de visita). El texto se puede buscar, editar o guardar electrónicamente en un formato más compacto .

Para que la información delos documentos en papel pueda ser procesada por el ordenador, no basta con escanearlos. En este caso, se trataría simplemente de una copia en imagen (lo que se denomina un gráfico rasterizado) del documento original. Aquí es donde entra en juego el software de reconocimiento óptico de caracteres: ensambla la colección de puntos blancos y negros en palabras y frases lógicas en varios pasos. De este modo, la imagen se convierte en un archivo editable y con capacidad de búsqueda que puedes consultar desde tu disco duro o en línea a través de la nube y editar allí con un programa de tratamiento de textos .

Es bueno saberlo: El texto completo del OCR también es necesario para la clasificación de documentos (no estructurados). Para ello, el software reconoce los atributos, datos y categorías individuales de un documento y determina automáticamente su tipo en función de ellos.

2. comparativa de los mejores programas de reconocimiento de texto para 2019

No hace mucho tiempo, el software OCR todavía era muy caro y complicado de usar. Entretanto, sin embargo, hace tiempo que se ha convertido en una herramienta de productividad y también existe una gran selección de potentes programas para usuarios privados a un precio adecuado. En esta sección hemos recopilado para usted los mejores programas de reconocimiento de texto , desde freeware hasta herramientas profesionales.

2.1 FreeOCR

FreeOCR es un programa gratuito de reconocimiento de texto para Windows basado en el motor de OCR de código abierto Tesseract. La herramienta reconoce texto de archivos PDF y TIFF y también puede abrir documentos escaneados y formatos de imagen comunes (por ejemplo, BMP, JPEG, GIF o PNG). Durante la digitalización sólo se tiene en cuenta el texto; se ignora el formato. Los archivos de salida se muestran en una ventana y pueden editarse desde allí, copiarse al portapapeles, guardarse como RTF o exportarse directamente a Microsoft Word. Además de textos en alemán, FreeOCR también puede reconocer contenidos en inglés, español o francés.

FreeOCR Screenshot der Bentuzeroberfläche
Clara y bien estructurada: La interfaz de usuario de FreeOCR
.

Es bueno saberlo: Tesseract es compatible con numerosos idiomas y sistemas de escritura, incluyendo, por ejemplo, muchas fuentes Fraktur asiáticas. Si un paquete de idiomas aún no está incluido en FreeOCR, basta con instalarlo desde el sitio web de Tesseract. El fabricante también proporciona instrucciones sobre cómo hacerlo.

Laherramienta utiliza el reconocimiento de patrones para digitalizar el texto. También se pueden seleccionar pasajes o extractos individuales. Esto resulta muy útil, por ejemplo, si desea excluir determinadas partes de una página.

2.2 Abbyy FineReader

Abbyy FineReader es un potente paquete todo en uno que permite procesar toda la correspondencia en papel de las empresas. La aplicación ofrece numerosas funciones, como herramientas de escaneado y conversión y diversas herramientas de OCR, con las que podrá digitalizar y gestionar documentos sin necesidad de utilizar software adicional. El software de reconocimiento de texto puede integrarse en todas las aplicaciones de Microsoft Office y ofrece una vista original de los documentos reconocidos en Word.

Abbyy FineReader OCR-Software Scan
Abbyy FineReader es un programa PDF con función OCR integrada
.

La herramienta está equipada con ADTR («Adaptive Document Recognition Technology»), que reconstruye la estructura y el formato de documentos de varias páginas y los mapea en el nuevo archivo de texto. Según el fabricante, esto debería hacer que teclear y reformatear sea cosa del pasado. FineReader es compatible con 189 idiomas y numerosos formatos, como PDF, HTML, DOC/DOCX, RTF, Word XML, DBF, CSV, TXT u ODT. También puede utilizarse para extraer texto de imágenes. A continuación, puede editarlas con las herramientas integradas y, por ejemplo, realizar ajustes de contraste y brillo o eliminar el desenfoque de movimiento y el ruido ISO.

Abbyy FineReader Bearbeitungsmöglichkeiten
El programa convierte documentos para archivarlos a largo plazo en archivos PDF y PDF/A que permiten realizar búsquedas.

Otra función práctica es la posibilidad de configurar macros y tareas automatizadas con las que podrá, por ejemplo, realizar tareas recurrentes más rápidamente o asignar ubicaciones de almacenamiento individuales a los documentos.

La versión actual de Abbyy FineReader está disponible en tres versiones

  • Estándar
  • Corporativa
  • Enterprise (licencias por volumen)

se ofrecen. Se diferencian principalmente en los procesos de conversión y las opciones de automatización.

2.3 OmniPage Ultimate

El escáner de texto OmniPage Ultimate, con sus funciones de conversión y conexión a la nube, también está dirigido principalmente a las empresas. La aplicación tiene una precisión de OCR muy alta y reconoce todo el diseño, independientemente de si contiene tablas, columnas, gráficos o numeración. La herramienta es compatible con todas las aplicaciones habituales de Office y con más de 120 idiomas diferentes. Para la digitalización, puede utilizar cualquier escáner comercial (con controlador TWAIN, WIA o ISIS) o , alternativamente, fotografiar los documentos.

https://www.youtube.com/watch?v=7N-6n_ffGco

OmniPage Ultimate también cuenta con muchas otras funciones, como resaltar pasajes individuales mediante la selección de palabras clave o tachar automáticamente determinadas partes del texto (por ejemplo, datos personales). La configuración para ello sólo tiene que hacerse una vez, y la herramienta recuerda sus entradas.

OmniPage Ultimate puede procesar archivos de imagen en los formatos TIFF, PCX, DCX, BMP, JPG, GIF, PNG y MAX, y también descodifica archivos PDF.

Especialmente práctico: con la ayuda de la tecnología de voz integrada, puede incluso hacer que sus documentos se lean en voz alta en dispositivos compatibles con MP3.

2.4 ReadIris

ReadIris es un software OCR que destaca sobre todo por su interfaz de usuario simplificada y su facilidad de uso. Se centra en las cuatro funciones principales

  • Importar
  • Organizar
  • Convertir
  • Editar

Los campos correspondientes le dirigirán a la función respectiva; sólo necesitará unos pocos clics para llevar a cabo los pasos individuales.

Die OCR-Software ReadIris unterstützt viele Sprachen
ReadIris es compatible con más de 130 idiomas, incluidos el ruso y el árabe.

ReadIris es compatible con más de 130 idiomas (incluidos el ruso, el chino y el árabe) convierte imágenes, archivos PDF, documentos de MS Office y archivos escaneados y los convierte a PDF, XLSX, DOCX, ODT, ePub, RTF, HTML, TXT, TIFF, JPEG, PNG o audio bajo demanda. El diseño original del archivo se mantiene durante la conversión.

El fabricante ofrece el software en tres versiones: PDF, Pro y Corporate, aunque sólo esta última dispone de funciones adicionales como la protección y firma de PDF o el procesamiento por lotes de documentos. No obstante, las tres versiones están equipadas con prácticas funciones de edición, como la reexposición o la eliminación de manchas , con las que se puede mejorar notablemente la calidad de los documentos escaneados.

Screenshot von ReadIris Corporate
En ReadIris Corporate también puede añadir firmas digitales a sus documentos
.

ReadIris también dispone de su propio módulo de escaneado, por lo que es compatible con todos los escáneres TWAIN (por ejemplo, de Brother, Canon o HP) incluso sin software externo. Existe una versión para Windows y otra para Mac del software OCR.

Consejo: Si trabajas con Google Docs, no necesitas ningún software OCR adicional porque la solución ofimática en la nube también incluye un conversor gratuito. Para utilizar el reconocimiento de texto en línea, todo lo que tienes que hacer es subir el documento deseado a Google Drive y hacer clic con el botón derecho en el nombre del archivo y, a continuación, seleccionar «Abrir con -> Google Docs» en el menú contextual. Esto crea un documento Docs (en el mismo directorio) y le aplica automáticamente la función OCR.

Artículos relacionados