Calidad de los datos
La calidad de los datos es una función de la administración del análisis a escala de nube. Reside en la zona de aterrizaje de la administración de datos y es una parte fundamental de la gobernanza.
Consideraciones sobre la calidad de los datos
La calidad de los datos es responsabilidad de cada persona que cree y consuma productos de datos. Los creadores deben cumplir las reglas globales y de dominio, mientras que los consumidores deben notificar incoherencias de datos al propietario del dominio de datos a través de un bucle de comentarios.
Dado que la calidad de los datos afecta a todos los datos proporcionados a la junta, debe empezar en la parte superior de la organización. El panel debe tener información sobre la calidad de los datos proporcionados.
Sin embargo, ser proactivo todavía requiere que tenga expertos en calidad de los datos que puedan limpiar cubos de datos que requieran corrección. Evite insertar este trabajo en un equipo central y, en su lugar, diríjase al dominio de datos, con conocimientos de datos específicos, para limpiar los datos.
Métricas de calidad de los datos
Las métricas de calidad de los datos son clave para evaluar y aumentar la calidad de los productos de datos. En un nivel global y de dominio, debe decidir las métricas de calidad. Como mínimo, se recomiendan las siguientes métricas.
Métricas | Definiciones de métricas |
---|---|
Integridad = % total de valores no NULL + no en blanco | Mide la disponibilidad de los datos, los campos del conjunto de datos que no están vacíos y los valores predeterminados que se cambiaron. Por ejemplo, si un registro incluye 01/01/1900 como datos de nacimiento, es muy probable que el campo nunca se haya rellenado. |
Unicidad = % de valores no duplicados | Mide valores distintos en una columna determinada en comparación con el número de filas de la tabla. Por ejemplo, dados cuatro valores de color distintos (rojo, azul, amarillo y verde) en una tabla con cinco filas, ese campo es un 80 % (o 4/5) único. |
Coherencia = % de los datos que tienen patrones | Mide el cumplimiento dentro de una columna determinada a su tipo de datos o formato esperados. Por ejemplo, un campo de correo electrónico que contiene direcciones de correo electrónico con formato o un campo de nombre con valores numéricos. |
Validez= % de coincidencia de referencia | Mide los datos correctos que coinciden con su conjunto de referencias de dominio. Por ejemplo, dado un campo de país o región (que cumple los valores de taxonomía) en un sistema de registros transaccionales, el valor de "US of A" no es válido. |
Precisión= % de valores no modificados | Mide la reproducción correcta de los valores previstos en varios sistemas. Por ejemplo, si una factura detalla una SKU y un precio extendido que difiere del pedido original, el elemento de la línea de factura es inexacto. |
Vinculación = % de datos bien integrados | Mide la asociación correcta a sus detalles de referencia complementarios en otro sistema. Por ejemplo, si una factura especifica una SKU o una descripción incorrecta del producto, el elemento de línea de factura no se puede vincular. |
Generación de perfiles de los datos
La generación de perfiles de datos examina los productos de datos que están registrados en el catálogo de datos y recopila estadísticas e información sobre esos datos. Para proporcionar vistas de resumen y tendencias sobre la calidad de los datos a lo largo del tiempo, almacene estos datos en el repositorio de metadatos en el producto de datos.
Los perfiles de datos ayudan a los usuarios a responder preguntas sobre los productos de datos, entre los que se incluyen:
- ¿Puede utilizarse para solucionar mi problema empresarial?
- ¿Los datos se ajustan a estándares o patrones específicos?
- ¿Cuáles son algunas de las anomalías del origen de datos?
- ¿Cuáles son los posibles retos de integración de estos datos en mi aplicación?
Los usuarios pueden ver el perfil del producto de datos mediante un panel de informes dentro de su marketplace de datos.
Puede informar sobre elementos como:
- Integridad: indica el porcentaje de datos que no están en blanco o null.
- Unicidad: indica el porcentaje de datos que no están duplicados.
- Coherencia: indica los datos en los que se mantiene la integridad de los datos.
Recomendaciones sobre la calidad de los datos
Para implementar la calidad de los datos, debe usar la potencia humana y computacional de la siguiente manera:
Use soluciones que incluyan algoritmos, reglas, generación de perfiles de datos y métricas.
Use expertos del dominio que puedan intervenir cuando haya un requisito para entrenar un algoritmo debido a un gran número de errores que pasan a través de la capa de proceso.
Valide en una fase temprana del proceso. Las soluciones tradicionales aplican comprobaciones de la calidad de los datos después de extraerlos, transformarlos y cargarlos. En este momento, el producto de datos ya se consume y se producen errores en los productos de datos de bajada. En su lugar, a medida que se ingieren datos desde el origen, implemente comprobaciones de calidad de los datos cerca de los orígenes y antes de que los consumidores de bajada usen los productos de datos. Si hay una ingesta por lotes desde el lago de datos, realice estas comprobaciones al mover datos de un estado sin procesar a enriquecidos.
Antes de mover los datos a la capa enriquecida, su esquema y columnas se comprueban con los metadatos registrados en el catálogo de datos.
Si los datos contienen errores, se detiene la carga y el equipo de la aplicación de datos notifica el error.
Si se pasan las comprobaciones de esquema y columna, los datos se cargan en las capas enriquecidas con tipos de datos compatibles.
Antes de pasar a la capa enriquecida, un proceso de calidad de datos comprueba el cumplimiento de los algoritmos y las reglas.
Sugerencia
Defina reglas de calidad de los datos en un nivel global y de dominio. Esto permite a la empresa definir sus estándares para cada producto de datos creado y permite a los dominios de datos crear reglas adicionales relacionadas con su dominio.
Soluciones de calidad de los datos
Recomendamos evaluar Microsoft Purview Data Quality como solución para evaluar y gestionar la calidad de los datos, que es crucial para obtener información y tomar decisiones fiables basadas en IA. Incluye:
- Reglas sin código/de bajo código: evalúe la calidad de los datos mediante reglas generadas por IA listas para usar.
- Generación de perfiles de datos con tecnología de IA: recomienda columnas para la generación de perfiles y permite la intervención humana para el refinamiento.
- Puntuación de la calidad de los datos: proporciona puntuaciones para activos de datos, productos de datos y dominios de gobernanza.
- Alertas de calidad de datos: notifica a los propietarios de los datos los problemas de calidad.
Para obtener más información, consulte Qué es la calidad de los datos.
Si su organización decide implementar Azure Databricks para manipular datos, entonces debe evaluar los controles de calidad de datos, las pruebas, la supervisión y el cumplimiento que ofrece esta solución. El uso de expectativas puede capturar problemas de calidad de datos en la inadministración antes de que afecten a los productos de datos secundarios relacionados. Para obtener más información, consulte Establecimiento de normas de calidad de datos y Administración de la calidad de datos con Databricks.
También puede elegir entre opciones de partners, de código abierto y personalizadas para una solución de calidad de datos.
Resumen de calidad de datos
La corrección de la calidad de los datos puede tener consecuencias graves para una empresa. Puede dar lugar a unidades de negocio que interpretan los productos de datos de diferentes maneras. Esta interpretación incorrecta puede resultar costosa para las decisiones de base empresarial sobre los productos de datos con una calidad de datos inferior. La corrección de productos de datos, con atributos que faltan, puede ser una tarea costosa y podría requerir recargas completas de los datos de determinados períodos.
Valide la calidad de los datos de forma temprana y ponga los procesos en marcha para abordar proactivamente la mala calidad de los datos. Por ejemplo, un producto de datos no se puede publicar en producción hasta que logre una cierta cantidad de integridad.
Puede usar herramientas gratuitas como opción, pero asegúrese de que incluye expectativas (reglas), métricas de datos, generación de perfiles y la capacidad de proteger las expectativas para que pueda implementar expectativas globales y basadas en dominios.