Dirty data: qué es y cómo afecta económicamente a las empresas

 13-02-2020
Tatiana Castro

 

   

 

El análisis de grandes cantidades de información es una de las principales estrategias que implementan hoy en día las compañías para optimizar procesos, hacer predicciones basadas en datos y desarrollar servicios. La innovadora estrategia de analizar datos para la prevención y optimización de recursos es una de las áreas con mayor crecimiento de inversión actualmente en el sector de tecnología.

Asimismo, en los proyectos de análisis de datos, los analistas se encuentran frecuentemente con un tipo de datos conocido como dirty data -datos no organizados, incompletos o inconsistentes- los cuales, además de ser un reto en medio del proyecto, pueden implicar una considerable pérdida de información y esfuerzos adicionales no contemplados para las empresas. Reportes realizados en Estados Unidos por la compañía Experian identifican que más del 26% de datos en empresas son dirty data, generando un impacto en pérdidas del 15% de las ganancias producidas anualmente.

Desde que el dirty data implica un alto costo, es importante identificar de dónde viene, cómo afecta económicamente a los negocios e identificar si existe alguna solución. Según Experian, el 60% de dirty data es creado por errores humanos, es decir, errores como clasificaciones equivocadas o falta de protocolos de gestión documental en las empresas, imposibilitando la agrupación de datos para realizar el análisis de la información. Recientemente, los expertos identifican cualquier tipo de datos que no se consideren íntegros -clasificados y completos- como dirty data. Algunos ejemplos:

  • Duplicación de datos
  • Datos con violación de normativas, estos pueden involucrar información contable, reportes financieros o regulaciones.
  • Encuestas en las que clientes no diligencian sus datos de manera correcta.

En el sector económico a nivel global, el dirty data cuesta aproximadamente entre un 15% y 25% de ingresos a una compañía. Este porcentaje incluye riesgos de seguridad y transacciones fraudulentas no identificadas que pueden estar escondidas en las bases de datos sin ser detectadas por el equipo de tecnología o los profesionales. Gracias a esta amenaza, diferentes compañías han tomado la iniciativa de realizar capacitaciones al personal con el fin de prevenir la creación de datos no clasificables y que sean difíciles de recuperar a futuro.

Uno de los principales retos del tratamiento de dirty data es la limpieza, recuperación de datos inválidos y eliminar duplicados. Para los científicos de datos es importante que la empresa cuente con procesos estandarizados del tratamiento de la información como, por ejemplo, tablas de retención documental, además de una revisión constante de la arquitectura de la información de los sistemas de datos. Especialistas resaltan la importancia de evaluar la infraestructura y datos antes de implementar un proyecto de análisis de datos ya que, el dirty data puede agregar un 25% de tiempo adicional a los proyectos y aumentar el costo de inversión.

Durante años, el tratamiento de datos e implementación de nuevas tecnologías serán el gran diferenciador entre compañías con el fin de optimizar sus servicios e indicadores de calidad. Es por eso, que se aconseja no esperar al científico de datos para identificar una brecha en la información de la compañía, por el contrario, la empresa debe hoy en día estar un paso adelante con la implementación de estándares a nivel nacional e internacional cambiando también la cultura organizacional en el tratamiento de datos e información, evitando así las afectaciones económicas resultantes de dirty data.