¿Qué es el Sistema OCR?

Conoce algo más de este proceso computarizado que permite escanear un documento de texto para almacenarlo de manera digital.

El Reconocimiento Óptico de Caracteres, o OCR, es una tecnología que permite convertir diferentes tipos de documentos, tales como documentos en papel escaneados o archivos de PDF, captados por una cámara digital en datos editables y con opción de búsqueda.

Imaginemos que se tiene un documento en papel (un artículo de revista, un folleto, etc. que se envió por email), que obviamente un escáner no será suficiente para hacer esa información disponible para edición, digamos, en Microsoft Word.

Todo lo que puede hacer un escáner es crear una imagen o una instantánea del documento que es nada más que una colección de puntos negros y blancos o color, conocida como imagen de trama.

Por eso que para extraer y reusar los datos de los documentos escaneados, se necesita un software de OCR que va a separar las letras de la imagen, ponerlas en palabras y después las palabras en frases, lo que le permite tener acceso y editar el contenido del documento original.

Asi que gracias al sistema OCR ya muchas empresas en todo el mundo lo utiliza para almacenar los textos físicos en forma de datos, protegiendo de esta manera su información.

Objetivo

Este sistema tiene como objetivo fundamental lograr la automatización de caracteres, sin la necesidad de utilizar del teclado, ahorrando de esta forma el uso del recurso humano, minimizando los errores y aumentando la productividad.

Desventajas

El sistema funciona de manera correcta cuando se trata de textos o imágenes perfectas, pero en aquellos casos en donde el papel contiene algunos detalles, se presentarán inconvenientes al momento de su digitalización:

  • Cuando la imagen se escanea puede presentar algunos niveles grises al fondo que no pertenecen a la imagen original.
  • Pueden ocurrir errores de reconocimiento, cuando la distancia entre los caracteres no es la misma.
  • La conexión de dos o más caracteres por pixeles también pueden generar errores.

Te puede interesar: 5 aplicaciones para escanear y editar documentos con el móvil

Tecnología

Los mecanismos exactos que le permiten a la gente reconocer los objetos aún no pueden ser entendidos, pero hay 3 principios básicos que los científicos conocen muy bien: integridad, intencionalidad, adaptabilidad (IPA).

Estos principios construyen la base de ABBYY FineReader que le permiten reproducir el reconocimiento natural o como el ser humano. ¿Y cómo ABBYY FineReader reconoce el texto?

Primero, el programa de OCR analiza la estructura de la imagen del documento. Divide la página en elementos tales como bloques de texto, tablas, imágenes y etc. Las líneas están divididas en palabras y después en caracteres. Una vez que los caracteres han sido señalados, el programa los compara con un conjunto de imágenes del patrón. Esto avanza las numerosas hipótesis sobre que es este carácter.

En base de estas hipótesis el programa analiza diferentes variantes de ruptura de líneas en palabras y palabras en caracteres. Después de procesar un enorme número de tales hipótesis probabilísticas, el programa finalmente toma la decisión, presentando a usted el texto reconocido.

Además ABBYY FineReader provee soporte de diccionario para 48 idiomas. Esto permite realizar el análisis secundario de los elementos de texto en el nivel de palabra. Con soporte de diccionario el programa asegura análisis y reconocimiento de documentos aun más preciso y simplifica posterior verificación de los resultados de verificación.

Vía: tributos.net

Lee también: CURSOS GRATUITOS DE DESARROLLO PERSONAL

Artículos Relacionados

comments