Definición de OCR

OCR es la sigla de Optical Character Recognition, una expresión en lengua inglesa que puede traducirse como Reconocimiento Óptico de Caracteres. La noción se utiliza en la informática para nombrar a un procedimiento que permite digitalizar un texto a través de un escáner.

Lo que posibilita el OCR es que, al pasar un texto por un cierto dispositivo, el sistema reconozca los caracteres como parte de un alfabeto. De este modo, el documento escaneado puede ser editado con un procesador de textos, ya que no se almacena como una imagen.

De esta manera, el OCR facilita el trabajo que tienen que realizar muchas personas. Si alguien escanea un libro con la intención de realizar un resumen, gracias al OCR podrá interactuar con el texto escaneado a través de un programa como Microsoft Word, cortando, copiando y pegando cualquier palabra, algo imposible si no se realiza tal proceso de reconocimiento, ya que el ordenador es incapaz de entender el texto que se encuentra en una imagen.

Además de la ventaja evidente de almacenar un texto como tal y no como una imagen, se encuentra la considerable diferencia de peso: las imágenes pueden ocupar mucho más espacio en disco que los textos, y esto se debe tomar en cuenta si se desea tener libros enteros escaneados. Claro que no en todos los casos es aconsejable que el ordenador realice el OCR, especialmente si no existe la intención de editar el contenido.

Resulta curioso que tan sólo una aplicación pueda cambiar tan drásticamente la capacidad de un mismo ordenador, pero es lo que ocurre en todos los casos: si bien los procesadores modernos pueden ser muy eficientes, especialmente si se combinan con memorias y discos de última generación, de nada nos sirven sin los programas adecuados, por lo cual una misma máquina puede pasar de ser inútil a extremadamente avanzada simplemente por el software con el que cuente.

El caso del OCR es muy particular, ya que le brinda al ordenador una habilidad que resulta básica para la mayoría de los seres humanos: leer. Cabe mencionar que no se trata de una tarea fácil para ninguno de los dos, aunque en nuestro caso solemos aprender a realizarla desde muy pequeños, por lo cual adquirimos una gran destreza, incluso cuando debemos enfrentarnos a una caligrafía difícil de entender.

Pese al avance de la tecnología, el OCR aún se enfrenta a diversos problemas. Lograr que un sistema digital reconozca un texto manuscrito, por ejemplo, es bastante dificultoso. El proceso suele encontrar inconvenientes para segmentar las diversas unidades de texto. Lo mismo ocurre cuando las palabras aparecen muy juntas.

Otras fallas del OCR pueden aparecer cuando no existe el suficiente contraste entre las palabras y el fondo. Supongamos que un texto escrito con letras negras está impreso sobre una hoja gris: es probable que el proceso OCR no logre distinguir las letras y las palabras.

No olvidemos que, así como una acción aparentemente tan simple como caminar por la calle requiere de una serie de acciones complementarias para evitar obstáculos y proteger nuestra integridad, la lectura de un texto impreso es el resultado de varias tareas simultáneas de reconocimiento, las cuales llevamos a cabo casi de manera inconsciente, pero que nos toman trabajo.

Al enfrentarnos a un texto, nuestro propio sistema de OCR se encarga de buscar y reconocer el título, de identificar los párrafos, los signos de puntuación, los espacios entre las palabras y las abreviaturas, entre otros elementos, además de esforzarse por comprender las fuentes demasiado ornamentadas o desprolijas y de completar la información en regiones que hayan sufrido cualquier tipo de desgaste, como ser una mancha de tinta o un trozo de papel faltante.

Definición siguiente →