Digitalización documental: El Reconocimiento Óptico de Caracteres (OCR)

La digitalización de documentos físicos es uno de los procesos fundamentales en cualquier Sistema de Gestión documental. Existen varias soluciones y funcionalidades que pueden optimizar al máximo esta tarea. Es el caso de los Sistemas de OCR (las siglas en inglés para Reconocimiento Óptico de Caracteres).

Cuando digitalizamos un documento físico a través de un escáner se crea sólo un archivo de imagen, genera lo que podemos llamar una foto de la página. Esta foto podremos guardarla o imprimirla, pero no podremos interactuar con el texto que contiene el documento. Al utilizar un sistema de reconocimiento óptico de caracteres OCR, esta imagen se convierte en un archivo de texto, de modo que podemos editarlo e incluso cambiar el formato del documento.

El uso de un OCR tiene un fin muy marcado en la gestión documental. Al transformar el archivo de imagen generado por el escáner y reconocer las palabras contenidas, podemos hacer búsquedas concretas del texto incluido en los documentos. Podemos ir más lejos y asociar ciertas palabras contenidas en el documento como CLAVES para su localización, que es lo que se denomina “indexado” en la base de datos, para luego buscar u ordenar los documentos por medio de estas palabras clave. Una de las ventajas de esta conversión del documento, es la reducción de espacio en disco.

Mientras que en una imagen los caracteres se describen indicando cada uno de los píxeles que los forman, al convertirlos a un formato de texto (por ejemplo ASCII o Unicode) pasan a estar descritos por un solo número, por lo que se produce una reducción significativa del espacio en memoria que ocupan.