Fabricantes, integradores y clientes cae(mos) en el grave error de catalogar lo buena o mala que es una solución de OCR en base a la tasa de fallo del OCR, es decir, al número de caracteres erróneos en función del número de caracteres totales. Este método de evaluación de la calidad puede ser correcto para valorar el procesamiento de documentos genéricos, pero no es el mejor modo de evaluación para documentos estructurados como los documentos de identidad, ya sea el DNI, el pasaporte u otros. Nos estamos dejando llevar por la inercia del pasado, y por lo bien que suenan cifras como el 95% o el 99% de acierto (100%-tasa de fallo).
No saber en qué métrica centrarse es un error no sólo de este sector, sino que sucede en todos. De hecho, este es exactamente el mismo error que se cometía en sectores productivos como el de la metalurgia, y que perfectamente definió Goldratt en sus libros sobre cadena crítica. En este sector, se medía la productividad como el número de toneladas de acero procesado por hora, y no por métricas como cumplimiento del plazo de entregas por ejemplo. Este modo de medir llevaba a que el único objetivo era malgastar acero, porque cuanto más acero se quemaba, más productivo se creía que se era.
Cuando una organización desea implantar una solución de OCR para automatizar el procesamiento de los documentos de identidad aportados por sus clientes, sus objetivos son la reducción de costes, el aumento de la productividad, y la reducción de los plazos de respuesta, sustituyendo un procesamiento manual por un procesamiento automático. Sin embargo, para afrontar la inversión, deben analizar el potencial retorno de la misma, y aquí es donde radica la importancia de evaluar bien.
Pensemos en una organización que recibe 10.000 documentos de identidad al mes, y que en la actualidad procesa todos a mano
Si tomamos como métrica la tasa de acierto del OCR, supongamos de una solución con un 95% de acierto, la organización pensará que el 95% de los documentos de identidad se procesarán sin errores, y que sólo un cinco por ciento presentará algún error, con lo que su coste de procesamiento actual se reduce en un 95%, con lo que si los costes de la nueva solución son, digamos un 35% del coste actual, estamos reduciendo nuestros costes de procesamiento en un 60%.
¿Suena bien verdad?, sí, suena bien pero es erróneo.
Una tasa de acierto de caracteres del 95% no indica, ni mucho menos, que la tasa de documentos procesados sin errores sea del 95%, ni mucho menos. Supongamos que estamos interesados solo en una zona MRZ de un DNI electrónico. Esta zona contiene tres filas de 30 caracteres, de los cuales entorno a unos 64 en media se corresponden con datos a extraer.
Si los errores del OCR se distribuyen independientemente, un 95% de tasa de acierto significa que de cada 100 caracteres nos fallan 5, o sea que de cada 64 caracteres nos fallan 3. Esto supone que el 100% de los DNIs procesados por el nuevo sistema tendrían que revisarse manualmente. Con una tasa del 99%, fallaría un caracter por cada 100, es decir, tendríamos que revisar manualmente aproximadamente un 60% de los DNIs.
El tiempo de revisión y corrección manual de errores de OCR de un DNI no es directamente proporcional al número de caracteres erróneos, por muy bien diseñada que esté la herramienta para la consulta y corrección, sino que existen unos costes de apertura, consulta, localización, revisión y grabación, que aunque inferiores a los tiempos de procesamiento totalmente manual, siguen siendo altos. El tiempo de corrección de un DNI con un error es muy similar el tiempo de corrección de un DNI con varios errores de decodificación.
Por ello, la métrica que debe usarse para decidir cuál es la mejor solución de extracción de datos y verificación de documentos nacionales de identidad o pasaportes es el número de documentos procesados sin errores, y esta tasa, aunque está relacionada con la tasa de acierto del OCR, no tiene una relación tan directa.
Los fabricantes que diseñan soluciones específicas de procesamiento de OCR diseñan e implementan toda una capa de localización, normalización, limpieza y binarización, anterior a la realización del OCR. Esta capa previa de algoritmos normalmente se diseña para conseguir dejar documentos perfectos para el OCR. Estos documentos perfectos, se procesarán normalmente sin ningún fallo de OCR, mientras que en aquella minoría de documentos en los que exista algún error de decodificación, normalmente el número de caracteres fallidos será superior a uno. Digámoslo así, se está favoreciendo a aquella gran mayoría de documentos que podemos procesar perfectamente sin errores.
Este modo de diseñar las soluciones busca el mayor retorno para las entidades que las implantan, siendo el objetivo reducir al máximo el número de documentos procesados a mano, y debe ser el modo de evaluar la calidad de las soluciones de OCR.