Muchas librerías de OCR recomiendan que la imagen de entrada sea ya una imagen binaria, recayendo, por tanto, la responsabilidad del proceso de binarización en una fase previa a la de OCR.
Dependiendo de cada aplicación, la captura de imágenes puede ser una etapa fundamental para el correcto funcionamiento de los OCRs. Desafortunadamente, en muchas aplicaciones apenas se pueden acotar o controlar las variables que afectan a la captura. En el caso del escaneo de documentos con dispositivos multifunción (MFP), la iluminación es uniforme por toda la imagen, y no existen zonas de contenido sobreexpuestas que hacen desaparecer contenido útil. No obstante, cuando la captura se realiza utilizando un Smartphone o incluso una Webcam, la iluminación de la escena a capturar puede provocar no sólo sobreexposición, sino también carencia de nitidez en la imagen debido a que el contenido útil de la escena está sin enfocar.
Aparte del problema de segmentación, que no se tratará en esta entrada, trabajar con efusividad en la fase de binarización proporciona grandes alegrías en el incremento de la tasa de decodificación del OCR.
ÿNeeds ha abordado este problema usando heurística sobre el grosor del ancho del trazo de la fuente de letra a decodificar, aplicando un algoritmo iterativo de binarización zonal basado en run-length para cada carácter segmentado correctamente, de forma que se minimice el error de grosor de letra esperado y el grosor de letra (run-length) obtenido tras la binarización iterativa.
El run-length o grosor de la letra tras la binarización se puede medir en cualquier ángulo. En nuestra implementación se mide en 0º y 90º. De este modo, se genera una lista de umbrales candidatos de binarización por cada carácter segmentado. El umbral final para cada carácter será calculado usando además de los propios umbrales candidatos, los umbrales candidatos de los caracteres adyacentes, obteniendo así el umbral de binarización más robusto frente a cambios de iluminación zonales.
Observe la dupla de imágenes siguientes donde se muestra la imagen sementada sin binarizar y la imagen binarizada. Fíjese en la uniformidad del grosor del trazo de los caracteres binarizados.