Procedimientos recomendados para la gobernanza de datos e IA
En este artículo se tratan los procedimientos recomendados de gobernanza de datos e IA, organizados por los principios arquitectónicos que figuran en las siguientes secciones.
1. Unificación de la administración de datos e IA
Establecimiento de un proceso de gobernanza de datos e IA
La gobernanza de datos e IA consiste en la administración de la disponibilidad, la facilidad de uso, la integridad y la seguridad de los datos y los recursos de IA de una organización. Mediante el fortalecimiento de la gobernanza de datos e IA, las organizaciones pueden garantizar la calidad de los recursos críticos para un análisis y una toma de decisiones acertados, identificar nuevas oportunidades, mejorar la satisfacción del cliente y, en última instancia, aumentar los ingresos. Ayuda a las organizaciones a cumplir las normativas sobre privacidad de datos e IA y a mejorar las medidas de seguridad, lo que reduce el riesgo de que se produzcan vulneraciones de datos y las correspondientes penalizaciones. Una gobernanza de datos eficaz también elimina las redundancias y simplifica la administración de los datos, lo que supone un ahorro de costos y una mayor eficacia operativa.
Las organizaciones pueden elegir el modelo de gobernanza que más les convenga:
- En el modelo de gobernanza centralizada, los administradores de gobernanza son propietarios del metastore y pueden asumir la propiedad de cualquier objeto y conceder y revocar permisos.
- En un modelo de gobernanza distribuida, el dominio de datos es un catálogo o un conjunto de catálogos. El propietario de ese catálogo puede crear y poseer todos los recursos y administrar la gobernanza dentro de ese dominio. Los propietarios de cualquier dominio determinado pueden funcionar independientemente de los propietarios de otros dominios.
La solución de gobernanza de datos e IA Unity Catalog está integrada en la plataforma de inteligencia de datos de Databricks. Admite los dos modelos de gobernanza y permite administrar sin problemas datos estructurados y no estructurados, modelos de aprendizaje automático, cuadernos, paneles y archivos en cualquier nube o plataforma. Los procedimientos recomendados de Unity Catalog facilitan la implementación de la gobernanza de datos e IA.
Administración de metadatos para todos los recursos de datos e IA en un solo lugar
Las ventajas de administrar los metadatos para todos los recursos en un solo lugar son similares a las ventajas de mantener una fuente única de la verdad para todos los datos. Entre ellas se incluyen la reducción de la redundancia de datos, el aumento de la integridad de los datos y la eliminación de malentendidos debidos a definiciones o taxonomías diferentes. También es más fácil implementar directivas globales, estándares y reglas con un único origen.
Como procedimiento recomendado, ejecute el almacén de lago en una sola cuenta con un catálogo de Unity. El catálogo de Unity puede administrar datos y volúmenes (archivos arbitrarios) y recursos de IA, como características y modelos de IA. El contenedor de nivel superior de objetos del catálogo de Unity es un metastore. Almacena recursos de datos (como tablas y vistas) y los permisos que rigen el acceso a ellos. Use una sola tienda de metadatos por región de nube y no acceda a metastores entre regiones para evitar problemas de latencia.
El metastore proporciona un espacio de nombres de tres niveles para estructurar datos, volúmenes y recursos de IA:
Databricks recomienda usar catálogos para proporcionar segregación en toda la arquitectura de información de la organización. A menudo, esto significa que los catálogos pueden corresponder al ámbito del entorno de desarrollo de software, al equipo o a la unidad de negocio.
Seguimiento del linaje de datos e IA para impulsar la visibilidad de los datos
El linaje de datos es una herramienta eficaz que ayuda a los líderes de datos a obtener una mayor visibilidad y comprensión de los datos de sus organizaciones. El linaje de datos describe la transformación y el refinamiento de los datos del origen a la información. Incluye la captura de todos los metadatos y eventos pertinentes asociados a los datos a lo largo de su ciclo de vida, incluido el origen del conjunto de datos, qué otros conjuntos de datos se usaron para crearlo, quién lo creó y cuándo, qué transformaciones se realizaron, qué otros conjuntos de datos lo usan y muchos otros eventos y atributos.
Además, al entrenar un modelo en una tabla en el catálogo de Unity, puede realizar un seguimiento del linaje del modelo hasta el conjunto o los conjuntos de datos ascendentes en los que se entrenó y evaluó.
El linaje de datos se puede usar para muchos casos de uso relacionados con datos:
- Cumplimiento y preparación de auditoría: el linaje de datos ayuda a las organizaciones a realizar un seguimiento del origen de tablas y campos. Esto es importante para cumplir los requisitos de muchas regulaciones de cumplimiento, como el Reglamento General de Protección de Datos (RGPD), la Ley de Privacidad del Consumidor de California (CCPA), la Ley de Portabilidad y Responsabilidad del Seguro de Salud (HIPAA), el Comité de Supervisión Bancaria (BCBS) 239 y la Ley Sarbanes-Oxley (SOX).
- Análisis de impacto y administración de cambios: los datos pasan por varias transformaciones desde el origen hasta la tabla final lista para la empresa. Comprender el posible impacto de los cambios de datos en los usuarios de nivel inferior es importante desde una perspectiva de administración de riesgos. Este impacto se puede determinar fácilmente mediante el linaje de datos recopilado por el catálogo de Unity.
- Control de calidad de los datos: comprender dónde procede un conjunto de datos y qué transformaciones se han aplicado proporciona un contexto mucho mejor para los científicos y analistas de datos, lo que les permite obtener información mejor y más precisa.
- Depuración y diagnósticos: en caso de un resultado inesperado, el linaje de datos ayuda a los equipos de datos a realizar análisis de la causa principal mediante el seguimiento del error en su origen. Esto reduce enormemente el tiempo de solución de problemas.
Unity Catalog captura el linaje de datos en tiempo de ejecución en las consultas que se ejecutan en Azure Databricks y también el linaje del modelo. El linaje es compatible con todos los idiomas y se captura hasta el nivel de columna. Los datos del linaje incluyen cuadernos, trabajos y paneles relacionados con la consulta. Se puede visualizar el linaje casi en tiempo real en el Catalog Explorer y acceder a él mediante la API de REST de linaje de datos de Databricks.
Adición de descripciones coherentes a los metadatos
Las descripciones proporcionan un contexto esencial para los datos. Ayudan a los usuarios a comprender el propósito y el contenido de las tablas y columnas de datos. Esta claridad les permite detectar, identificar y filtrar más fácilmente los datos que necesitan, lo que es fundamental para un análisis de datos y una toma de decisiones eficaces. Las descripciones pueden incluir información sobre el cumplimiento normativo y la confidencialidad de los datos. Esto ayuda a las organizaciones a cumplir los requisitos legales y normativos en materia de privacidad y seguridad de los datos. Las descripciones también deben incluir información sobre el origen, la precisión y la relevancia de los datos. De este modo se garantiza la integridad de los datos y se promueve una mejor colaboración entre los equipos.
Dos características principales de Unity Catalog admiten la descripción de tablas y columnas. El catálogo de Unity permite:
Agregar comentarios a tablas y columnas en forma de comentarios.
También puede agregar un comentario generado por IA para cualquier tabla o columna de tabla administrada por el catálogo de Unity con el fin de agilizar el proceso. Sin embargo, los modelos de IA no siempre son precisos y se deben revisar los comentarios antes de guardarlos. Databricks recomienda encarecidamente la revisión humana de los comentarios generados mediante inteligencia artificial para comprobar si hay imprecisiones.
Agregar etiquetas a cualquier elemento protegible en Unity Catalog. Las etiquetas son atributos que contienen claves y valores opcionales que se pueden aplicar a diferentes objetos protegibles en Unity Catalog. El etiquetado es útil para organizar y clasificar diferentes objetos protegibles dentro de un metastore. El uso de etiquetas también facilita la búsqueda y la detección de los recursos de datos.
Facilitación de una detección de datos sencilla para los consumidores de datos
La detección de datos fácil permite a los científicos de datos, analistas de datos e ingenieros de datos detectar y referenciar rápidamente datos relevantes y acelerar el tiempo de valor.
Catalog Explorer de Databricks proporciona una interfaz de usuario para explorar y administrar datos, esquemas (bases de datos), tablas y permisos, propietarios de datos, ubicaciones externas y credenciales. Además, puede usar la pestaña Insights de Catalog Explorer para ver las consultas recientes más frecuentes y los usuarios de cualquier tabla registrada en Unity Catalog.
Gobernanza de los recursos de IA junto con los datos
La relación entre la gobernanza de datos y la inteligencia artificial (IA) se ha convertido en fundamental para el éxito. La forma en que las organizaciones administran, protegen y usan los datos afectan directamente a los resultados y las consideraciones de las implementaciones de IA: no se puede tener IA sin datos de calidad y no se pueden tener datos de calidad sin gobernanza de datos.
La gobernanza de datos e IA mejora el rendimiento de la inteligencia artificial, ya que garantiza un acceso sin problemas a datos de alta calidad y actualizados, lo que da lugar a una mayor precisión y a una mejor toma de decisiones. El desglose de los silos aumenta la eficacia, ya que permite una mejor colaboración y simplifica los flujos de trabajo, lo que da como resultado un aumento de la productividad y una reducción de los costos.
Otra ventaja es la mejora de la seguridad de los datos, ya que un enfoque de gobernanza unificado establece prácticas coherentes de administración de los datos, lo que reduce las vulnerabilidades y aumenta la capacidad de la organización para proteger la información confidencial. El cumplimiento de las normativas sobre privacidad de datos es más fácil de mantener cuando está integrada la gobernanza de datos e IA, ya que la administración de datos y los procesos de IA están en consonancia con los requisitos normativos.
En general, un enfoque de gobernanza unificada fomenta la confianza entre las partes interesadas y garantiza la transparencia en los procesos de toma de decisiones de IA mediante el establecimiento de directivas y procedimientos claros tanto para los datos como para la IA.
En la plataforma de inteligencia de datos de Databricks, Unity Catalog es el componente central para gobernar los recursos de datos e IA:
Características en Unity Catalog
En las áreas de trabajo habilitadas para Unity Catalog, los científicos de datos pueden crear tablas de características en Unity Catalog. Estas tablas de características son tablas Delta o Delta Live Tables administradas por Unity Catalog.
-
Los modelos de Unity Catalog amplían las ventajas de Unity Catalog a los modelos de ML, incluidos el control de acceso centralizado, la auditoría, el linaje y la detección de modelos entre áreas de trabajo. Entre las características clave de los modelos de Unity Catalog se incluyen la gobernanza de modelos, el linaje cronológico de los modelos, el control de versiones de los modelos y la implementación de modelos a través de alias.
2. Unificación de la seguridad de datos e IA
Centralización del control de acceso para todos los recursos de datos e IA
La centralización del control de acceso para todos los recursos de datos es importante porque simplifica la seguridad y la gobernanza de los datos y los recursos de IA proporcionando un lugar central para administrar y auditar el acceso a estos recursos. Este enfoque ayuda a administrar el acceso a objetos de datos e IA de forma más eficaz, garantizando el cumplimiento de los requisitos operativos en torno a la segregación de funciones, lo que resulta crucial para el cumplimiento normativo y la prevención de riesgos.
La plataforma de inteligencia de datos de Databricks proporciona métodos para el control del acceso a los datos que describen qué grupos o usuarios pueden acceder a qué datos. Son instrucciones de directiva que pueden ser extremadamente detalladas y específicas, hasta llegar a la definición de cada registro al que tiene acceso cada usuario. O pueden ser muy expresivas y amplias. Por ejemplo, pueden indicar que todos los usuarios de finanzas pueden ver todos los datos financieros.
Unity Catalog centraliza los controles de acceso para todos los objetos protegibles admitidos, como tablas, archivos y modelos, entre muchos otros. Cada objeto protegible de Unity Catalog tiene un propietario. El propietario de un objeto tiene todos los privilegios sobre el objeto, así como la capacidad de conceder privilegios sobre el objeto protegible a otras entidades de seguridad. Unity Catalog permite administrar privilegios y configurar el control de acceso mediante instrucciones DDL de SQL.
Unity Catalog usa filtros de fila y máscaras de columna para el control de acceso específico. Los filtros de filas permiten aplicar un filtro a una tabla para que las consultas posteriores devuelvan solamente las filas para las que el predicado del filtro se evalúe como verdadero. Las máscaras de columna permiten aplicar una función de enmascaramiento a una columna de tabla. La función de enmascaramiento se evalúa en tiempo de ejecución de la consulta mediante la sustitución de cada referencia de la columna de destino por los resultados de la función de enmascaramiento.
Para obtener más información, vea Seguridad, cumplimiento y privacidad: administración de identidades y acceso con privilegios mínimos.
Configuración del registro de auditoría
El registro de auditoría es importante porque proporciona una cuenta detallada de las actividades del sistema (acciones de usuario, cambios en la configuración, etc.) que podrían afectar a la integridad del sistema. Aunque los registros estándar del sistema están diseñados para ayudar a los desarrolladores a solucionar problemas, los registros de auditoría proporcionan un registro histórico de la actividad con fines de cumplimiento y otros propósitos de aplicación de directivas empresariales. El mantenimiento de registros de auditoría sólidos puede ayudar a identificar y garantizar la preparación frente a amenazas, infracciones de seguridad, fraudes y otros problemas del sistema.
Databricks proporciona acceso a los registros de auditoría de las actividades realizadas por los usuarios de Databricks, lo que permite a su empresa supervisar patrones de uso detallados de Databricks. Hay dos tipos de registros: registros de auditoría de nivel de área de trabajo, con eventos de nivel de área de trabajo, y registros de auditoría de nivel de cuenta, con eventos de nivel de cuenta.
También puede habilitar registros de auditoría detallados, que son registros de auditoría adicionales que se registran cada vez que se ejecuta una consulta o comando en el área de trabajo.
Auditoría de eventos de plataforma de datos
El registro de auditoría es importante porque proporciona información detallada de las actividades del sistema. La plataforma de inteligencia de datos tiene registros de auditoría para el acceso a metadatos (por lo tanto, acceso a datos) y para el uso compartido de datos:
- El catálogo de Unity captura un registro de auditoría de acciones realizadas en el metastore. Esto permite a los administradores acceder a detalles específicos sobre quién ha accedido a un conjunto de datos determinado y qué acciones han realizado.
- Para un uso compartido seguro con Delta Sharing, Azure Databricks proporciona registros de auditoría para supervisar los eventos de Delta Sharing, entre los que se incluyen:
- Cuando alguien crea, modifica, actualiza o elimina un recurso compartido o un destinatario.
- Cuando un destinatario accede a un vínculo de activación y descarga la credencial.
- Cuando un destinatario accede a recursos compartidos o datos en tablas compartidas.
- Cuando se rota o expira la credencial de un destinatario.
3. Establecimiento de estándares de calidad de los datos
La plataforma Data Intelligence de Databricks proporciona una administración sólida de la calidad de los datos con controles de calidad integrados, pruebas, supervisión y cumplimiento para garantizar que los datos precisos y útiles estén disponibles para las cargas de trabajo de inteligencia empresarial, análisis y aprendizaje automático de nivel inferior.
Los detalles de implementación se pueden ver en Confiabilidad: administración de la calidad de los datos.
Definición de estándares claros de calidad de los datos
La definición de estándares de calidad de los datos claros y accionables es fundamental, ya que permite garantizar que los datos usados para el análisis, los informes y la toma de decisiones sean precisos y de confianza. Documentar estos estándares ayuda a garantizar su cumplimiento. Los estándares de calidad de los datos se deben basar en las necesidades específicas de la empresa y abordar las dimensiones de la calidad de los datos, como la precisión, la integridad, la puntualidad y la confiabilidad:
- Precisión: asegúrese de que los datos reflejen con precisión los valores reales.
- Integridad: se deben capturar todos los datos necesarios y no debe faltar ningún dato crítico.
- Coherencia: los datos de todos los sistemas deben ser coherentes y no contradecir otros datos.
- Puntualidad: los datos se deben actualizar y estar disponibles de forma oportuna.
- Confiabilidad: los datos se deben generar y procesar de una manera que garantice su fiabilidad.
Uso de herramientas de calidad de datos para la generación de perfiles, la limpieza, la validación y la supervisión de los datos
Aproveche las herramientas de calidad de datos para la generación de perfiles, la limpieza, la validación y la supervisión de los datos. Estas herramientas ayudan a automatizar los procesos de detección y corrección de problemas de calidad de los datos, lo que es fundamental para escalar iniciativas de calidad de los datos en los grandes conjuntos de datos típicos de los lagos de datos.
En el caso de los equipos que usan DLT, se pueden emplear expectativas para definir restricciones de calidad de datos en el contenido de un conjunto de datos. Las expectativas permiten garantizar que los datos que llegan a las tablas cumplen los requisitos de calidad de los datos y proporcionan información sobre la calidad de los datos para cada actualización de canalización.
Implementación y aplicación de definiciones y formatos de datos estandarizados
Los formatos y definiciones de datos estandarizados ayudan a lograr una representación coherente de los datos en todos los sistemas para facilitar la integración y el análisis de los datos, reducir los costos y mejorar la toma de decisiones reforzando la comunicación y la colaboración entre equipos y departamentos. También ayuda a proporcionar una estructura para crear y mantener la calidad de los datos.
Desarrolle y aplique un diccionario de datos estándar que incluya definiciones, formatos y valores aceptables para todos los elementos de datos usados en la organización.
Use convenciones de nomenclatura, formatos de fecha y unidades de medida coherentes en todas las bases de datos y aplicaciones para evitar discrepancias y confusiones.