Connecter votre espace de travail Azure Databricks à votre réseau local

Cet article explique comment établir la connectivité de votre espace de travail Azure Databricks à votre réseau local. Le trafic est routé via un réseau virtuel de transit vers le réseau local, à l’aide de la topologie Hub-and-Spoke suivante.

Déploiement d’un réseau virtuel

Si vous avez besoin d’aide à la suite de ce guide, contactez vos équipes de comptes Microsoft et Databricks.

Spécifications

Votre espace de travail Azure Databricks doit être déployé dans votre propre réseau virtuel, opération également appelée injection de réseau virtuel.

Étape 1 : Configurer un réseau virtuel de transit avec la passerelle de réseau virtuel Azure

Vous avez besoin d’une passerelle de réseau virtuel Azure (ExpressRoute ou VPN) dans un réseau virtuel de transit configuré à l’aide de l’une de ces méthodes. Si vous disposez déjà d’une passerelle appropriée, passez à Appairer le réseau virtuel Azure Databricks avec le réseau virtuel de transit.

Si vous avez déjà configuré ExpressRoute entre votre réseau local et Azure, suivez la procédure décrite dans Configurer une passerelle de réseau virtuel pour ExpressRoute à l’aide du portail Azure.

Sinon, suivez les étapes 1 à 5 dans Configurer une connexion de passerelle VPN de réseau virtuel à réseau virtuel à l’aide du portail Azure.

Si vous avez besoin d’aide, contactez votre équipe de comptes Microsoft.

Étape 2 : appairer le réseau virtuel Azure Databricks avec le réseau virtuel de transit

Si votre espace de travail Azure Databricks se trouve dans le même réseau virtuel que la passerelle de réseau virtuel, passez à Créer des routes définies par l’utilisateur avant de les associer à vos sous-réseaux de réseau virtuel Azure Databricks.

Dans le cas contraire, suivez les instructions dans Appairer les réseaux virtuels pour appairer le réseau virtuel Azure Databricks au réseau virtuel de transit, en sélectionnant les options suivantes :

  • Utiliser des passerelles distantes du côté du réseau virtuel Azure Databricks.
  • Autoriser le transit par passerelle du côté du réseau virtuel de transit.

Pour plus d’informations, consultez Créer un peering.

Notes

Si votre connexion réseau locale à Azure Databricks ne fonctionne pas avec les paramètres ci-dessus, vous pouvez également sélectionner l’option Autoriser le trafic transféré des deux côtés du peering pour résoudre le problème.

Pour plus d’informations sur la configuration du transit par passerelle VPN pour le peering de réseaux virtuels, consultez Configurer le transit par passerelle VPN pour le peering de réseaux virtuels.

Étape 3 : créer des itinéraires définis par l’utilisateur avant de les associer à vos sous-réseaux de réseau virtuel Azure Databricks

Une fois que vous avez appairé le réseau virtuel Azure Databricks avec le réseau virtuel de transit, Azure configure automatiquement toutes les routes à l’aide du réseau virtuel de transit. La configuration automatique n’inclut pas la route de retour des nœuds de cluster vers le plan de contrôle Azure Databricks. Vous devez créer manuellement ces routes personnalisées à l’aide de routes définies par l’utilisateur.

  1. Créez une table de routage, en activant la propagation de route BGP.

    Notes

    Dans certains cas, la propagation de route BGP provoque des échecs lors de la validation de la configuration de la connexion réseau locale. En dernier recours, vous pouvez désactiver la propagation de route BGP.

  2. Ajoutez des routes définies par l’utilisateur pour les services suivants, en utilisant les instructions fournies dans Routes personnalisées.

    Si la connectivité sécurisée des clusters (SCC) est activée pour l’espace de travail, utilisez l’adresse IP de relais SCC plutôt que l’adresse IP de traduction d’adresses réseau (NAT) du plan de contrôle.

    Source Préfixe de l’adresse Type de tronçon suivant
    Default Adresse IP NAT du plan de contrôle
    (Uniquement si la connectivité SCC est désactivée)
    Internet
    Default Adresse IP de relais SCC
    (Uniquement si la connectivité SCC est activée)
    Internet
    Default IP Webapp Internet
    Default Adresse IP de metastore Internet
    Default Adresse IP de stockage Blob d’artefacts Internet
    Default Adresse IP de stockage Blob de journaux Internet
    Par défaut IP de stockage de l’espace de travail (ADLS) Internet
    Par défaut IP de stockage racine de l’espace de travail (Blob) pour les espaces de travail créés avant le 6 mars 2023. Internet
    Par défaut IP d’Event Hubs Internet

    Pour obtenir les adresses IP de chacun de ces services, suivez les instructions dans Paramètres de routage définis par l’utilisateur pour Azure Databricks.

    Si la route basée sur l’adresse IP échoue lors de la validation de la configuration, vous pouvez créer un point de terminaison de service pour Microsoft.Storage afin de router tout le trafic de stockage de l’espace de travail via le réseau principal Azure. Si vous utilisez cette approche, vous n’avez pas besoin de créer des itinéraires définis par l’utilisateur pour le stockage de l’espace de travail.

    Remarque

    Pour accéder à d’autres services de données Azure PaaS, comme Cosmos DB ou Azure Synapse Analytics, à partir d’Azure Databricks, vous devez ajouter des routes définies par l’utilisateur pour ces services à la table de routage. Résolvez chaque point de terminaison en son adresse IP à l’aide de nslookup ou d’une commande équivalente.

  3. Associez la table de routage à vos sous-réseaux publics et privés de réseau virtuel Azure Databricks, en suivant les instructions de la procédure Associer une table de routage à un sous-réseau.

    Une fois la table de routage personnalisée associée à vos sous-réseaux de réseau virtuel Azure Databricks, vous n’avez pas besoin de modifier les règles de sécurité de trafic sortant dans le groupe de sécurité réseau. Par exemple, vous n’avez pas besoin de rendre la règle de trafic sortant plus spécifique, car les routes contrôlent la sortie réelle.

Étape 4 : valider la configuration

Pour valider la configuration :

  1. Créez un cluster dans votre espace de travail Azure Databricks.

    En cas d’échec de la création d’un cluster, suivez les instructions de configuration, en essayant les autres options de configuration une par une.

    Si vous ne pouvez toujours pas créer de cluster, vérifiez que la table de routage comprend toutes les routes définies par l’utilisateur requises. Si vous avez utilisé des points de terminaison de service plutôt que des itinéraires définis par l’utilisateur pour ADLS Gen2 (pour les espaces de travail créés avant le 6 mars 2023, Stockage Blob Azure), vérifiez également ces points de terminaison.

    Si vous ne pouvez toujours pas créer de cluster, contactez vos équipes de comptes Microsoft et Databricks pour obtenir de l’aide.

  2. Effectuez un test ping sur une adresse IP locale à partir d’un notebook à l’aide de la commande suivante :

    %sh
    ping <IP>
    

Pour obtenir des conseils supplémentaires sur la résolution des problèmes, consultez les ressources suivantes :

Étapes de configuration facultatives

Option : acheminer le trafic Azure Databricks avec une appliance virtuelle ou un pare-feu

Vous pouvez filtrer tout le trafic sortant à partir de nœuds de cluster Azure Databricks à l’aide d’un pare-feu ou d’une appliance DLP, comme le pare-feu Azure, Palo Alto ou Barracuda. Cela vous permet d’inspecter le trafic sortant pour répondre aux stratégies de sécurité et d’ajouter une adresse IP publique de type NAT ou un routage CIDR unique pour tous les clusters à une liste verte.

Ajustez ces étapes en fonction des besoins de votre pare-feu ou de votre appliance DLP :

  1. Configurez une appliance virtuelle ou un pare-feu au sein du réseau virtuel de transit, en suivant les instructions de la procédure Créer une NVA.

    Si vous avez besoin d’une seule configuration de pare-feu pour plusieurs espaces de travail, vous pouvez créer le pare-feu dans un sous-réseau sécurisé ou DMZ au sein du réseau virtuel Azure Databricks, qui est différent des sous-réseaux privés et publics existants.

  2. Créez une route supplémentaire dans la table de routage personnalisée sur 0.0.0.0/0.

  3. Si vous utilisez l’approche de sous-réseau sécurisé ou DMZ, vous pouvez créer une table de routage supplémentaire associée uniquement au sous-réseau DMZ. Dans cette table de routage, créez une route sur 0.0.0.0.

    Définissez le type de tronçon suivant de cette route sur Internet si le trafic est destiné à un réseau public, ou sur la passerelle de réseau virtuel si le trafic est destiné à un réseau local.

  4. Configurez les règles d’autorisation et de refus dans l’appliance de pare-feu.

    Si vous avez supprimé les routes pour le stockage d’objets blob, ajoutez-les à la liste verte dans le pare-feu.

    Si vos clusters dépendent de référentiels publics, tels que des référentiels de système d’exploitation ou des registres de conteneurs, ajoutez-les à la liste verte.

    Pour plus d’informations sur les listes vertes, consultez Paramètres de routage définis par l’utilisateur pour Azure Databricks.

Option : configurer un système DNS personnalisé

Vous pouvez utiliser un système DNS personnalisé avec les espaces de travail Azure Databricks déployés dans votre propre réseau virtuel. Pour plus d’informations sur la configuration d’un système DNS personnalisé pour un réseau virtuel Azure, consultez les articles Microsoft suivants :

.. Important : Pour résoudre les adresses IP des artefacts Azure, vous devez configurer votre système DNS personnalisé pour transférer ces demandes vers le programme de résolution récursif Azure.