Gouvernance des données avec le catalogue Unity

Ce guide montre comment gérer vos données et l’accès à l’objet IA dans Azure Databricks. Pour plus d’informations sur la sécurité d’Azure Databricks, consultez le guide de sécurité. Azure Databricks fournit une gouvernance centralisée pour les données et l’IA avec Unity Catalog et Delta Sharing.

Centralisez le contrôle d’accès à l’aide d’Unity Catalog

Unity Catalog est une solution affinée de gouvernance des données et de l’IA sur la plateforme Databricks. Elle permet de simplifier la sécurité et la gouvernance de vos données et ressources IA en fournissant un emplacement centralisé pour administrer et auditer l’accès aux données et aux ressources IA.

Dans la plupart des comptes, le catalogue Unity est activé par défaut lorsque vous créez un espace de travail. Pour plus de détails, consultez Activation automatique du catalogue Unity.

Pour une discussion sur l’utilisation efficace du catalogue Unity, consultez les meilleures pratiques du catalogue Unity.

Suivez la traçabilité des données à l’aide d’Unity Catalog

Vous pouvez utiliser le Catalogue Unity pour capturer la traçabilité des données de runtime entre les requêtes dans n’importe quel langage exécuté sur un cluster Azure Databricks ou un entrepôt SQL. La traçabilité est capturée jusqu’au niveau de la colonne, et inclut les notebooks, les travaux et les tableaux de bord liés à la requête. Pour obtenir plus d’informations, consultez Capturer et afficher la traçabilité des données en utilisant Unity Catalog.

Découvrez des données à l’aide de Catalog Explorer

Databricks Catalog Explorer offre une interface utilisateur permettant d’explorer et de gérer des données et ressources IA, notamment des schémas (bases de données), des tables, des volumes (données non tabulaires) et des modèles ML inscrits, ainsi que des autorisations de ressources, des propriétaires de données, des emplacements externes et des informations d’identification. Vous pouvez utiliser l’onglet Insights dans Catalog Explorer pour afficher les requêtes et les utilisateurs récents les plus fréquents de n’importe quelle table inscrite dans Unity Catalog.

Partager des données à l’aide de Delta Sharing

Delta Sharing est un protocole ouvert développé par Databricks pour le partage sécurisé de données et de ressources IA avec d’autres organisations, ou avec d’autres équipes au sein de votre organisation, quelle que soit la plateforme de calcul utilisée.

Configurer l’enregistrement d’audit

Databricks permet d’accéder aux journaux d’audit des activités effectuées par les utilisateurs Databricks, ce qui permet à votre entreprise de surveiller les modèles d’utilisation détaillés de Databricks.

Unity Catalog vous permet d’accéder et d’interroger facilement les données opérationnelles de votre compte’, notamment les journaux d’audit, l’utilisation facturable et la traçabilité à l’aide de tables système (préversion publique).

Configurer l’identité

Tout bon projet de gouvernance des données commence par une fondation d’identité solide. Pour savoir comment configurer au mieux l’identité dans Azure Databricks, consultez Bonnes pratiques relatives aux identités.

Solutions de gouvernance des données héritées

Azure Databricks fournit également ces modèles de gouvernance hérités :

  • Le contrôle d’accès aux tables est un modèle de gouvernance des données hérité qui vous permet d’accorder et de révoquer par programmation l’accès aux objets gérés par le metastore Hive intégré de votre espace de travail. Databricks recommande d’utiliser Unity Catalog au lieu du contrôle d’accès aux tables. Unity Catalog facilite la sécurité et la gouvernance de vos données en fournissant un emplacement central pour administrer et auditer l’accès aux données dans plusieurs espaces de travail de votre compte.

  • Le passage des informations d’identification (hérité) d’Azure Data Lake Storage est également une fonctionnalité héritée de la gouvernance des données qui vous permet de vous authentifier automatiquement auprès du Stockage Azure à partir des clusters Azure Databricks à l’aide de la même identité Microsoft Entra ID que celle que vous utilisez pour vous connecter à Azure Databricks. Databricks vous recommande d’utiliser Unity Catalog à la place.