Cuándo pasas el 80% de tu tiempo limpiando datos y retocando los procesos de carga
Los ficheros que envían los Hipermercados y Supermercados están lejos de ser totalmente automatizables en los sistemas internos (Business Intelligence, Data Lakes o Querys para extraer csv a trabajar por Data Scientist) de cualquier empresa de Gran Consumo.
Los problemas principales son:
Los maestros de productos y tiendas originales son impracticables, El retailer los codifica a su modo, lo que impide analizar la información tal y como están habituados tus analistas.
Eanes desparecidos. En muchos casos, el fichero original solo viene con el código del retailer. Nada parecido al código interno tuyo o a tu Ean. Y eso, sin hablar, de que estés recibiendo datos de la competencia.
Cambios continuos en los ficheros originales: Cuando el cliente ha añadido o quitado una columna, cuando el fichero viene con menos datos, cuando se añaden lineas totales en medio del raw data. En fin, cada vez que envían el fichero hay que hacer casi una auditoria para mantener la calidad.
Nuevos ficheros con nuevas categorías, mayor detalle o mayor frecuencia (semanal, diario) de información: Estos cambios son buenos, pero siguen generando trabajo no previsto.
Poder integrar información de diferentes retailers: Si los maestros no son coherentes poder analizar en conjunto los supermercados de 2 ó más retailers, se hace imposible.
Cruzar los datos con otras fuentes: internas, nielsen/iri, kantar, folletos, audit de tiendas, etc. ¿qué es peor que tener 1 maestro mal codificado? Fácil, tener 2 fuentes mal.
RESUMIENDO,
Nos encargamos de mantener los maestros en un estado perfecto.
Los ficheros de carga de datos (csv, json, xml,...) en tus sistemas mantendrán siempre las especificaciones.
Info2data.com "We work the data, You Analyze"
Comentários