Información general de la zona de aterrizaje de la gestión de datos del análisis a escala de la nube
La zona de aterrizaje de la gestión de datos es una función de gestión y es fundamental para el análisis a escala de la nube. Es responsable de la gobernanza de la plataforma de análisis.
La zona de aterrizaje de la administración de datos es una suscripción independiente que tiene los servicios estándar de una zona de aterrizaje de Azure. Permite la gobernanza de datos de sus datos a través de rastreadores, que se conectan a sus lagos de datos y al almacenamiento políglota en sus zonas de aterrizaje de datos. El emparejamiento de red virtual conecta la zona de aterrizaje de administración de datos a las zonas de aterrizaje de datos y a la suscripción de conectividad.
Use esta arquitectura como punto de partida. Descargue el archivo de Visio y modifíquelo para que se ajuste a sus requisitos técnicos y empresariales concretos al planear la implementación de la zona de aterrizaje de administración de datos.
Nota
La persistencia políglota es un término de almacenamiento que describe su elección entre diferentes tecnologías de almacenamiento de datos/almacenes de datos para soportar sus diversos tipos de datos y sus necesidades de almacenamiento. Principalmente, la persistencia políglota es el concepto de que una aplicación puede usar más de una tecnología de almacenamiento o base de datos principal.
Importante
La zona de aterrizaje de administración de datos deberá implementarse como una suscripción independiente en un grupo de administración con la gobernanza adecuada. Después, puede controlar la gobernanza en toda la organización. El acelerador de zonas de aterrizaje de Azure muestra cómo debe abordar las zonas de aterrizaje de Azure.
Catálogo de datos
Grupo de recursos: governance-rg
El catálogo de datos registra y mantiene la información de datos en un lugar centralizado y hace que esté disponible para la organización. Garantiza que las empresas eviten conjuntos de productos de datos duplicados causados por la ingesta redundante de datos por parte de distintos equipos de proyecto.
Se recomienda crear un servicio de catálogo de datos para definir los metadatos de los productos de datos almacenados en las zonas de aterrizaje de datos.
El análisis a escala en la nube depende de Microsoft Purview para registrar orígenes de datos empresariales, clasificarlos, garantizar la calidad de los datos y ofrecer acceso de autoservicio seguro.
Microsoft Purview es un servicio basado en inquilinos y puede comunicarse con cada zona de aterrizaje de datos mediante la creación de una red virtual administrada implementada en la región de las zonas de aterrizaje de datos. Puede implementar Azure Managed Virtual Network Integration Runtimes (IR) en redes virtuales administradas de Microsoft Purview en cualquier región de Microsoft Purview disponible. A partir de ahí, el IR de red virtual administrada puede usar puntos de conexión privados para conectarse de forma segura a los orígenes de datos compatibles y examinarlos. Para obtener más información, consulte Uso de una red virtual administrada con su cuenta de Microsoft Purview. La creación de un IR de red virtual administrada en Red virtual administrada garantiza que el proceso de integración de datos esté aislado y protegido.
Nota:
Aunque esta documentación se centra principalmente en el uso de Microsoft Purview para la gobernanza, es posible que las empresas hayan invertido en otros productos, como Alation, Okera o Collibra. Estas soluciones se basan en suscripciones y se recomienda implementarlas en la zona de aterrizaje de administración de datos. Tenga en cuenta que puede ser necesaria alguna integración personalizada.
Para más información, consulte procedimientos recomendados de implementación de Data Catalog y Microsoft Purview para el análisis a escala en la nube.
Administración de calidad de datos
Grupo de recursos: governance-rg2
Continúe con su solución actual.
Debe administrar la calidad de los datos lo más cerca posible del origen de datos para evitar problemas de calidad que se replican en el conjunto de análisis e inteligencia artificial. Mover las métricas de calidad y la validación a su integración de datos alinea el proceso de calidad con los equipos más cercanos a sus datos. Estos equipos tienen la comprensión más profunda de su recurso de datos.
El linaje de datos también proporciona confianza en la calidad de los datos y debe proporcionarlo para todos los productos de datos y productos.
Para obtener más información sobre la administración de la calidad de los datos, consulte Calidad de los datos.
Repositorio de modelado de datos
Grupo de recursos: governance-rg2
Debe capturar y almacenar modelos de relación de entidad en una ubicación central dentro de la zona de aterrizaje de administración de datos. Esto proporciona a los consumidores de datos un único lugar para buscar diagramas conceptuales.
Muchos clientes usan ER Studio e iServer para modelar sus productos de datos antes de la ingesta.
Administración de datos maestros
Grupo de recursos: governance-rg2
El control de administración de datos maestros reside en la zona de aterrizaje de administración de datos. La administración de datos maestros en la malla de datos contiene consideraciones específicas que debe llamar para la malla de datos.
Muchas soluciones de administración de datos maestros se integran completamente con Microsoft Entra ID. Esta integración le permite proteger sus datos y proporcionar vistas diferentes para distintos grupos de usuarios.
Para más información, consulte Sistema de administración de datos maestros.
Catálogo de API
Grupo de recursos: governance-rg2
Es probable que sus equipos de aplicaciones de datos de todo creen varias API para su aplicación de datos. Estas API pueden ser difíciles de detectar en toda su organización. La colocación de un catálogo de API en su zona de aterrizaje de la administración de datos puede resolver este problema.
Un catálogo de API puede ayudar a estandarizar su documentación y ofrece un lugar para la colaboración interna en las API. También puede impulsar los controles de consumo, publicación y gobernanza en toda su organización.
Uso compartido de datos y contratos
Grupo de recursos: governance-rg2
El análisis a escala en la nube usa la administración de derechos de Microsoft Entra o directivas de Microsoft Purview para controlar el acceso al uso compartido de datos. Incluso así, es posible que todavía necesite un repositorio de contratos y uso compartido. Este repositorio es una función organizativa y debe residir en su zona de aterrizaje de administración de datos.
Estos contratos deben proporcionar información sobre la validación de datos, el modelo y las directivas de seguridad.
Para más información, consulte Contratos de datos
Azure Container Registry
Grupo de recursos: containers-rg
Su zona de aterrizaje de la administración de datos hospeda una instancia de Azure Container Registry. El Azure Container Registry permite que las operaciones de la plataforma de datos implementen contenedores estándar para su uso en proyectos de ciencia de datos que consumen sus equipos de aplicaciones de datos.
Centros de Private Link de Azure Synapse
Grupo de recursos: synapse-link-rg
Los centros de Private Link de Azure Synapse Analytics son recursos de Azure conectan su red protegida y la experiencia web de Azure Synapse Studio. El análisis a escala en la nube conecta de forma segura la Virtual Network de Azure a Azure Synapse Studio mediante vínculos privados de estos centros.
Para conectarse a Azure Synapse Studio mediante vínculos privados se necesitan dos pasos.
- Cree un recurso de centro de Private Link.
- Cree un punto de conexión privado entre su instancia de Azure Virtual Network y ese centro de Private Link.
Después, puede usar puntos de conexión privados para comunicarse de forma segura con Azure Synapse Studio. Integre esos puntos de conexión privados con la solución DNS, ya sea con la solución local o con DNS privado de Azure.
Para obtener más información, consulte Conexión a Azure Synapse Studio mediante vínculos privados.
Interfaces de Automation (opcional)
Es posible que su organización decida crear muchos servicios de automatización para aumentar las funcionalidades de análisis a escala de la nube. Estos servicios de automatización impulsan la conformidad y las soluciones de incorporación para su estado de análisis.
Si decide crear estos servicios de automatización, debe tener una interfaz de usuario que actúe como marketplace de datos y una consola de operaciones. Esta interfaz debe basarse en un almacén de metadatos subyacente, como hemos descrito anteriormente en Estándares de metadatos.
Su consola de operaciones o marketplace de datos llama a un nivel intermedio de microservicios para facilitar la incorporación, el registro de metadatos, el aprovisionamiento de seguridad, el ciclo de vida de los datos y la observabilidad.
Puede aprovisionar el grupo de recursos automationdb-rg para hospedar el almacén de metadatos.
Importante
Ninguno de estos servicios de automatización son productos y no ilustran ningún elemento de hoja de ruta. Se muestran para ayudarle a tener en cuenta qué elementos podría querer automatizar.
Servicios
Servicio | Ámbito del servicio |
---|---|
Aprovisionamiento de zona de aterrizaje de datos | Este servicio crea una nueva zona de aterrizaje de datos. Es poco probable que tenga un uso elevado, pero se incluye para la integridad de la solución de incorporación de un extremo a otro. Para más información, consulte Aprovisionamiento del análisis a escala de la nube |
Incorporación de productos de datos | Este servicio crea y modifica los grupos de recursos que pertenecen a un inquilino incorporado. También contiene funcionalidades para actualizar y degradar las SKU y para activar y desactivar grupos de recursos para cualquier inquilino o servicio incorporado. Crea una nueva zona de aterrizaje de datos DevOps. Para más información, consulte Aprovisionamiento del análisis a escala de la nube |
Aprovisionamiento de acceso | Este servicio crea paquetes de acceso, directivas de acceso y proceso de aprobación de acceso a recursos (manual o automático) mediante SPN/UPN. También puede exponer una API para proporcionar una lista de solicitudes de suscripción (recursos) que los usuarios han enviado en los últimos 90 días. Para más información, consulte Administración de acceso a datos |
Ingesta independiente de los datos | Este microservicio crea nuevos orígenes de datos para la ingesta en las zonas de aterrizaje de datos. Para ello, se comunica con un metastore de Azure Data Factory SQL Database en cada zona de aterrizaje de datos. Para más información, consulte Cómo los marcos de ingesta automatizada admiten el análisis en la nube en Azure |
Metadatos | Este servicio expone y crea metadatos para la plataforma. Para obtener más información, vea Estándares de metadatos |
Ciclo de vida de los datos | Este servicio es responsable de mantener el ciclo de vida de sus datos en función de los metadatos. Este mantenimiento puede incluir mover datos al almacenamiento en frío y eliminar registros que ya no necesitan conservarse. Para más información, consulte Administración del ciclo de vida de los datos |
Incorporación de dominios de datos | SOLO SE APLICA A LA MALLA DE DATOS. Este servicio captura metadatos relacionados con nuevos dominios e incorpora los nuevos dominios según sea necesario. También puede crear, actualizar, activar y desactivar cualquier línea de dominio o servicio que pueda compilar en un microservicio. Para más información, consulte Aprovisionamiento del análisis a escala de la nube |
Normalización de datos
Aunque no es una característica o un producto específico de su zona de aterrizaje de gestión de datos, debe llamar la atención sobre la normalización de datos en todos los servicios. La normalización de datos define el formato en el que se deben almacenar y almacenar los datos.
Sugerencia
Utilizar el formato delta-lake siempre que sea posible como la norma de facto en todos los servicios y el almacenamiento.
Para más información, consulte Estandarización de datos.