Por Jorge Chacón Solar

Su implementación eliminaría miles de horas de trabajo repetitivo y de poco valor agregado e incluso generaría data que alimentaría sistemas de Inteligencia Artificial 

El Procesamiento Inteligente de Documentos (IDP, por sus siglas en inglés) es una tecnología de Robotización de Procesos Automatizada (RPA) que Extrae, Transforma y Carga (ETL, también por sus siglas en inglés) información no estructurada o semiestructurada en información procesable. 

Para entender mejor el concepto de IDP es indispensable diferenciar la información no estructurada de la información estructurada. La primera abarca cualquier conjunto de datos que no están organizados y que deben ser procesados antes de ser utilizados. Por ejemplo, las carpetas en físico con miles de páginas almacenadas en archivos de juzgados, registros y oficinas. Otro ejemplo de información no estructurada son las imágenes en formato PDF o JPG que contienen muchos datos, o las imágenes escaneadas de partidas de nacimiento o de actas constitutivas de empresas.

La información estructurada, por el contrario, ya está organizada, filtrada y depurada y está lista para ser utilizada en análisis cuantitativos. Un ejemplo de información estructurada pueden ser las bases de datos de Excel cuyas variables ya han sido clasificadas y esquematizadas. 

Las empresas y las oficinas públicas están repletas de información no estructurada. Los tribunales, las oficinas de catastro, los registros públicos civiles y mercantiles, por mencionar tres casos, tienen decenas de miles de expedientes en papel con información vital para las personas y empresas que se están dañando en oficinas generalmente muy mal acondicionadas.

El primer paso para transformar la información no estructurada en estructurada, es escanear todos los documentos en un formato de alta calidad, de esta forma documentos llenos de texto se convierten en imágenes. Esta es la única tarea manual que deben realizar trabajadores humanos. Posteriormente, un robot realiza un proceso triple: Extrae la información de las imágenes (en otras palabras, lee la imagen), Transforma estas imágenes en un formato adecuado (un texto o números) y Carga estos datos en un archivo o un sistema computarizado predeterminado (Word o algún software contable). 

Usemos un ejemplo para explicar mejor este proceso. Imagine que usted necesita registrar a una persona en un formulario de alguna página web. Para ello, le pide a esa persona que le envié una fotografía de la cédula y usted abre el archivo con la fotografía, revisa los datos y los transcribe en la página web. Este es un proceso manual que no tiene mayor complejidad y que puede demorarse un minuto o menos. Pero, ¿Qué sucede cuando no es solo una cédula sino miles de cédulas? La tarea, aunque sencilla, se complica mucho porque es larga y este minuto se convierte en decenas de horas. 

En este caso, la mejor solución es utilizar un sistema de Robotización Automatizada de Procesos (RPA). Un robot digital (no es tangible) se configuraría para abrir las miles de imágenes de las cédulas, extraer los decenas de miles de datos y completar los formularios en la página web. Cada cédula se procesaría en milésimas de segundos. 

Desde una perspectiva más técnica, el procedimiento consiste en siete pasos. Inicialmente, se debe realizar un pre-procesamiento que verifica y ajusta la calidad de las imágenes (binarización, reducción de ruido, eliminación de inclinación, ajustes de iluminación, etc.), después se hace una clasificación inteligente de los documentos usando tecnologías como PLN, Aprendizaje supervisado y no supervisado y OCR. En tercer lugar, se extraen los datos (es posible que haya que usar Machine Learning). Luego, hay una validación específica de dominio y también una validación mejorada (con RPA). Por último, se valida con un ser humano (aprendizaje supervisado). 

Esta tecnología trae enormes resultados de forma inmediata. Miles de documentos en papel que llevan décadas guardados en depósitos «resucitarían» en cuestión de segundos y podrían ser aprovechados y resguardados de una forma digital. Se generaría data que alimentaría sistemas de Inteligencia Artificial. Eliminaría miles de horas de trabajo repetitivo y de poco valor agregado y liberaría a las personas de estas tareas para que se enfocaran en actividades que tuvieran un alto valor agregado. 

Comparte este artículo:

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *