Utiliser le studio Azure Machine Learning dans un réseau virtuel Azure

Conseil

Vous pouvez utiliser des réseaux virtuels managés d’Azure Machine Learning au lieu de suivre les étapes décrites dans cet article. Avec un réseau virtuel managé, Azure Machine Learning gère le travail d’isolement réseau pour votre espace de travail et vos calculs managés. Vous pouvez également ajouter des points de terminaison privés pour les ressources dont l’espace de travail a besoin, par exemple un compte de stockage Azure. Pour plus d’informations, consultez Isolation de réseau gérée d’espace de travail.

Cet article explique comment utiliser Azure Machine Learning studio dans un réseau virtuel. Le studio inclut des fonctionnalités telles que AutoML, le concepteur et l’étiquetage des données.

Certaines des fonctionnalités du studio sont désactivées par défaut dans un réseau virtuel. Pour réactiver ces fonctionnalités, vous devez activer l’identité managée pour les comptes de stockage que vous prévoyez d’utiliser dans le studio.

Les opérations suivantes sont désactivées par défaut dans un réseau virtuel :

  • Aperçu des données dans Studio
  • Visualisation des données dans le concepteur
  • Déploiement d’un modèle dans le concepteur
  • Envoi d’une expérience AutoML
  • Démarrage d’un projet d’étiquetage

Studio prend en charge la lecture de données à partir des types de magasins de données suivants sur un réseau virtuel :

  • Compte Stockage Azure (blob et fichier)
  • Azure Data Lake Storage Gen1
  • Azure Data Lake Storage Gen2
  • Azure SQL Database

Dans cet article, vous apprendrez comment :

  • Accordez au studio l’accès aux données stockées au sein d’un réseau virtuel.
  • Accédez au studio à partir d’une ressource à l’intérieur d’un réseau virtuel.
  • Découvrez l'impact du studio sur la sécurité du stockage.

Prérequis

Limites

Compte Stockage Azure

  • Lorsque le compte de stockage se trouve dans le réseau virtuel, des exigences de validation supplémentaires sont requises pour utiliser Studio :

    • Si le compte de stockage utilise un point de terminaison de service, le point de terminaison privé de l’espace de travail et le point de terminaison du service de stockage doivent se trouver dans le même sous-réseau du réseau virtuel.
    • Si le compte de stockage utilise un point de terminaison privé, le point de terminaison privé de l’espace de travail et le point de terminaison privé du stockage doivent se trouver dans le même réseau virtuel. Dans ce cas, ils peuvent se trouver dans des sous-réseaux différents.

Exemple de pipeline de concepteur

Il y a un problème connu où les utilisateurs ne peuvent pas exécuter un pipeline d'échantillons dans la page d'accueil du concepteur. Ce problème se produit car l’exemple de jeu de données utilisé dans l’exemple de pipeline est un jeu de données Global Azure. Il n’est pas accessible à partir d’un environnement de réseau virtuel.

Pour résoudre ce problème, utilisez un espace de travail public pour exécuter l’exemple de pipeline. Vous pouvez également remplacer l’exemple de jeu de données par votre propre jeu de données dans l’espace de travail au sein d’un réseau virtuel.

Magasin de données : compte Stockage Azure

Procédez comme suit pour activer l’accès aux données stockées dans le Stockage Blob et le Stockage Fichier Azure :

Conseil

La première étape n’est pas requise pour le compte de stockage par défaut de l’espace de travail. Toutes les autres étapes sont requises pour tout compte de stockage se trouvant derrière le réseau virtuel et utilisé par l’espace de travail, notamment le compte de stockage par défaut.

  1. Si le compte de stockage est le stockage par défaut pour votre espace de travail, ignorez cette étape. Si ce n’est pas le cas, accordez à l’identité managée de l’espace de travail le rôle Lecteur des données blob du stockage pour le compte de stockage Azure afin qu’il puisse lire les données à partir du stockage blob.

    Pour plus d’informations, voir le rôle intégré Lecteur des données blob.

  2. Accordez le rôle de lecteur de données Blob de stockage à votre identité d’utilisateur Azure pour le compte de stockage Azure. Le studio utilise votre identité pour accéder aux données au stockage d’objets blob, même si l’identité managée de l’espace de travail a le rôle de Lecteur.

    Pour plus d’informations, voir le rôle intégré Lecteur des données blob.

  3. Accordez à l’identité managée de l’espace de travail le rôle Lecteur pour les points de terminaison privés du stockage. Si votre service de stockage utilise un point de terminaison privé, accordez à l’identité managée de l’espace de travail l’accès Lecteur au point de terminaison privé. L’identité mangée de l’espace de travail dans Microsoft Entra ID a le même nom que votre espace de travail Azure Machine Learning. Un point de terminaison privé est nécessaire pour les types de stockage blob et fichiers.

    Conseil

    Votre compte de stockage peut avoir plusieurs points de terminaison privés. Par exemple, un compte de stockage peut avoir un point de terminaison privé distinct pour les objets blob, les fichiers et les dfs (Azure Data Lake Storage Gen2). Ajoutez l’identité managée à tous ces points de terminaison.

    Pour plus d’informations, voir le rôle intégré Lecteur.

  4. Activez l’authentification via une identité managée pour les comptes de stockage par défaut. Chaque espace de travail Azure Machine Learning dispose de deux comptes de stockage par défaut : un compte de stockage BLOB par défaut et un compte de magasin de fichiers par défaut. Les deux sont définies lorsque vous créez votre espace de travail. Vous pouvez également définir de nouvelles valeurs par défaut dans la page de gestion Magasin de données.

    Capture d’écran montrant où se trouvent les magasins de données par défaut.

    Le tableau suivant décrit les raisons pour lesquelles l’authentification via l’identité managée est utilisée pour les comptes de stockage par défaut de votre espace de travail.

    Compte de stockage Notes
    Stockage blob par défaut de l’espace de travail Stocke les ressources de modèle à partir du concepteur. Activez l’authentification via une identité managée sur ce compte de stockage pour déployer des modèles dans le concepteur. Si l’authentification par identité managée est désactivée, l’identité de l’utilisateur est utilisée pour accéder aux données stockées dans l’objet blob.

    Vous pouvez visualiser et exécuter un pipeline de concepteur s’il utilise un magasin de données non défini par défaut qui a été configuré pour utiliser l’identité managée. Toutefois, si vous essayez de déployer un modèle entraîné sans que l’identité managée soit activée sur le magasin de données par défaut, le déploiement échoue, quelles que soient les autres magasins de données en cours d’utilisation.
    Magasin de fichiers par défaut de l’espace de travail Stocke les ressources d’expérimentation AutoML. Activez l’authentification via une identité managée sur ce compte de stockage pour soumettre des expériences AutoML.
  5. Configurez des magasins de données pour utiliser l’authentification via une identité managée. Après avoir ajouté un compte de stockage Azure à votre réseau virtuel avec un point de terminaison de service ou un point de terminaison privé, vous devez configurer votre magasin de données afin qu’il utilise l’authentification via une identité managée. Ainsi, le studio peut accéder aux données de votre compte de stockage.

    Azure Machine Learning utilise un magasin de données pour se connecter aux comptes de stockage. Lors de la création d’un magasin de données, procédez comme suit pour configurer un magasin de données afin d’utiliser l’authentification via une identité managée :

    1. Dans Studio, sélectionnez Magasins de données.

    2. Pour créer un magasin de données, sélectionnez + Créer.

    3. Dans les paramètres de magasin de données, activez le commutateur pour Utiliser l’identité managée d’espace de travail pour afficher un aperçu des données et les profiler dans Azure Machine Learning studio.

      Capture d’écran montrant comment activer l’identité managée de l’espace de travail.

    4. Dans les paramètres Réseau pour le Compte Stockage Azure, ajoutez le Type de ressource Microsoft.MachineLearningService/workspaces et définissez le Nom de l’instance dans l’espace de travail.

    Ces étapes ajoutent l’identité managée de l’espace de travail en tant que Lecteur au nouveau service de stockage à l’aide du contrôle d’accès en fonction du rôle Azure (Azure RBAC). L’accès lecteur permet à l’espace de travail d’afficher la ressource, mais pas d’apporter des modifications.

Magasin de données : Azure Data Lake Storage Gen1

Lorsque vous utilisez Azure Data Lake Storage Gen1 en tant que magasin de données, vous ne pouvez utiliser que des listes de contrôle d’accès de type POSIX. Vous pouvez accorder à l’identité managée de l’espace de travail l’accès aux ressources, comme pour tout autre principal de sécurité. Pour plus d’informations, consultez Contrôle d’accès dans Azure Data Lake Storage Gen1.

Magasin de données : Azure Data Lake Storage Gen2

Lorsque vous utilisez Azure Data Lake Storage Gen2 en tant que magasin de données, vous pouvez utiliser des listes de contrôle d’accès (ACL) de type Azure RBAC et POSIX pour contrôler l’accès aux données au sein d’un réseau virtuel.

Pour utiliser un RBAC Azure, suivez les étapes décrites dans la section Magasin de données : compte Stockage Azure de cet article. Data Lake Storage Gen2 est basé sur le service Stockage Azure ; par conséquent, les mêmes étapes s’appliquent lorsque vous utilisez Azure RBAC.

Pour utiliser des listes de contrôle d’accès, vous pouvez accorder l’accès à l’identité managée de l’espace de travail comme tout autre principal de sécurité. Pour plus d’informations, consultez Listes de contrôle d’accès sur les fichiers et répertoires.

Magasin de données : Azure SQL Database

Pour accéder aux données stockées dans une base de données Azure SQL Database à l’aide d’une identité managée, vous devez créer un utilisateur autonome SQL mappé à l’identité managée. Pour plus d’informations sur la création d’un utilisateur à partir d’un fournisseur externe, consultez Créer des utilisateurs contenus mappés à des identités Microsoft Entra.

Après avoir créé un utilisateur autonome SQL, vous devez lui accorder des autorisations à l’aide de la commande T-SQL GRANT.

Sortie du composant intermédiaire

Lorsque vous utilisez la sortie de composant intermédiaire du concepteur Azure Machine Learning, vous pouvez spécifier l’emplacement de sortie de n’importe quel composant dans le concepteur. Utilisez cette sortie pour stocker les ensembles de données intermédiaires dans un emplacement distinct à des fins de sécurité, de journalisation ou d'audit. Pour spécifier la sortie, procédez comme suit :

  1. Sélectionnez le composant dont vous souhaitez spécifier la sortie.
  2. Dans le volet Paramètres du composant, sélectionnez Paramètres de sortie.
  3. Spécifiez le magasin de données que vous souhaitez utiliser pour chaque sortie de composant.

Assurez-vous que vous avez accès aux comptes de stockage intermédiaires de votre réseau virtuel. Dans le cas contraire, le pipeline échoue.

Activez l’authentification via une identité managée pour les comptes de stockage intermédiaires afin de visualiser les données de sortie.

Accéder au studio à partir d’une ressource au sein d’un réseau virtuel

Si vous accédez à Studio à partir d’une ressource au sein d’un réseau virtuel (par exemple une instance de calcul ou une machine virtuelle), vous devez autoriser le trafic sortant du réseau virtuel vers Studio.

Par exemple, si vous utilisez des groupes de sécurité réseau (NSG) pour limiter le trafic sortant, ajoutez une règle à une destination d’étiquette de service de AzureFrontDoor.Frontend.

Paramètres du pare-feu

Certains services de stockage, comme le compte de stockage Azure, ont des paramètres de pare-feu qui s’appliquent au point de terminaison public de cette instance de service spécifique. Généralement, ce paramètre vous permet d’autoriser ou d’interdire l’accès à partir d’adresses IP spécifiques à partir de l’Internet public. Cela n’est pas pris en charge lors de l’utilisation d’Azure Machine Learning studio. C’est pris en charge lors de l’utilisation du kit de développement logiciel Azure Machine Learning ou de l’interface de ligne de commande.

Conseil

Azure Machine Learning studio est pris en charge lors de l’utilisation du service de Pare-feu Azure. Pour plus d’informations, consultez Configurer le trafic du réseau entrant et sortant.

Cet article fait partie d’une série sur la sécurisation d’un workflow Azure Machine Learning. Consultez les autres articles de cette série :