Réseau virtuel managé Azure Data Factory

S’APPLIQUE À : Azure Data Factory Azure Synapse Analytics

Conseil

Essayez Data Factory dans Microsoft Fabric, une solution d’analyse tout-en-un pour les entreprises. Microsoft Fabric couvre tous les aspects, du déplacement des données à la science des données, en passant par l’analyse en temps réel, l’aide à la décision et la création de rapports. Découvrez comment démarrer un nouvel essai gratuitement !

Cet article décrit les réseaux virtuels managés et les points de terminaison privés managés dans Azure Data Factory.

Réseau virtuel managé

Quand vous créez un runtime d’intégration Azure au sein d’un réseau virtuel managé Data Factory, ce runtime est provisionné avec le réseau virtuel managé. Il utilise des points de terminaison privés pour se connecter de manière sécurisée aux magasins de données pris en charge.

La création d’un runtime d’intégration au sein d’un réseau virtuel managé garantit l’isolation et la sécurisation du processus d’intégration des données.

Avantages de l’utilisation d’un réseau virtuel managé :

  • Avec un réseau virtuel managé, vous pouvez déplacer la charge liée à la gestion du réseau virtuel vers Data Factory. Vous n’avez pas besoin de créer un sous-réseau pour un runtime d’intégration qui pourrait finalement utiliser de nombreuses adresses IP privées à partir de votre réseau virtuel et nécessiter une planification préalable de l’infrastructure réseau.
  • La réalisation d’intégrations de données de façon sécurisée ne demande pas de connaissances approfondies en réseau Azure. Au contraire, le démarrage avec l’opération ETL sécurisée est beaucoup plus simple pour les ingénieurs de données.
  • Un réseau virtuel managé ainsi que les points de terminaison privés managés assurent une protection contre l’exfiltration des données.

Le réseau virtuel managé n’est pris en charge que dans la même région que Data Factory.

Notes

Un runtime d’intégration global existant ne peut pas basculer vers un runtime d’intégration dans un réseau virtuel managé Data Factory, et inversement.

Diagramme montrant une architecture réseau virtuel managé Data Factory.

Il existe deux façons d’activer le réseau virtuel managé dans votre fabrique de données :

  1. Activez le réseau virtuel managé lors de la création d’une fabrique de données.

Capture d’écran de l’activation d’un réseau virtuel managé pendant la création d’une fabrique de données.

  1. Activez le réseau virtuel managé dans votre runtime d’intégration.

Capture d’écran de l’activation d’un réseau virtuel managé dans un runtime d’intégration

Points de terminaison privés managés

Les points de terminaison privés managés sont des points de terminaison privés créés sur le réseau virtuel managé Data Factory qui établissent une liaison privée vers des ressources Azure. Data Factory gère ces points de terminaison privés à votre place.

Data Factory prend en charge les liaisons privées. Vous pouvez utiliser Azure Private Link pour accéder aux services PaaS (platform as a service) Azure tels que Stockage Azure, Azure Cosmos DB et Azure Synapse Analytics.

Quand vous utilisez une liaison privée, le trafic entre vos magasins de données et le réseau virtuel managé transite intégralement par le réseau principal de Microsoft. Une liaison privée assure une protection contre les risques liés à l’exfiltration des données. Vous établissez une liaison privée vers une ressource en créant un point de terminaison privé.

Un point de terminaison privé utilise une adresse IP privée sur le réseau virtuel managé pour y placer de fait le service. Les points de terminaison privés sont mappés à une ressource spécifique dans Azure, et non à l’ensemble du service. Les clients peuvent limiter la connectivité à une ressource spécifique approuvée par leur organisation. Pour plus d’informations, consultez Liaisons privées et points de terminaison privés.

Notes

Le fournisseur de ressources Microsoft.Network doit être enregistré dans votre abonnement.

  1. Veillez à activer le réseau virtuel managé dans votre fabrique de données.
  2. Créer un point de terminaison privé managé dans Manage Hub.

Capture d’écran montrant les points de terminaison privés managés.

  1. Une connexion de point de terminaison privé est créée dans un état en attente quand vous créez un point de terminaison privé managé dans Data Factory. Un workflow d’approbation est lancé. Le propriétaire de la ressource de liaison privée est responsable de l’approbation ou du refus de la connexion.

Capture d’écran montrant l’option Gérer les approbations dans le portail Azure.

  1. Si le propriétaire approuve la connexion, la liaison privée est établie. S’il la refuse, la liaison privée n’est pas établie. Dans les deux cas, le point de terminaison privé managé est mis à jour avec l’état de la connexion.

Capture d’écran montrant l’approbation d’un point de terminaison privé managé.

Seule une instance de point de terminaison privé managé dans un état approuvé peut envoyer du trafic vers une ressource de liaison privée spécifique.

Notes

Un DNS personnalisé n’est pas pris en charge dans un réseau virtuel managé.

Création interactive

Les options de création interactive sont utilisées pour des fonctionnalités comme le test de la connexion, la navigation dans la liste des dossiers et la liste des tables, l’obtention d’un schéma et l’aperçu des données. Vous pouvez activer la création interactive pendant la création ou la modification d’un runtime d’intégration Azure au sein d’un réseau virtuel managé ADF. Le service back-end pré-allouera le calcul pour les fonctionnalités de création interactive. Sinon, le calcul sera alloué chaque fois qu’une opération interactive sera exécutée, ce qui prendra plus de temps. Par défaut, la durée de vie (TTL) de la création interactive est de 60 minutes, ce qui signifie qu’elle est automatiquement désactivée 60 minutes après la dernière opération de création interactive. Vous pouvez modifier la valeur de durée de vie en fonction de vos besoins réels.

Capture d’écran montrant la création interactive.

Durée de vie

Activité de copie

Par défaut, chaque activité de copie démarre un nouveau calcul en fonction de la configuration dans l’activité de copie. Avec le réseau virtuel managé activé, le démarrage des calculs froids prend quelques minutes et le déplacement des données ne peut pas démarrer tant qu’il n’est pas terminé. Si vos pipelines contiennent plusieurs activités de copie séquentielles ou que vous avez beaucoup d’activités de copie dans la boucle foreach et qu’elles ne peuvent pas s’exécuter en parallèle, vous pouvez activer une valeur de durée de vie dans la configuration du runtime d’intégration Azure. La spécification d’une valeur de durée de vie et des numéros DIU requis pour l’activité de copie conserve les calculs correspondants en vie pendant une certaine durée après la fin de l’exécution. Si une nouvelle activité de copie commence pendant la durée de vie, elle va réutiliser les calculs existants et le temps de démarrage sera donc fortement réduit. Une fois la deuxième activité de copie terminée, les calculs restent actifs pendant la durée de vie. Vous avez la possibilité de choisir parmi les tailles de calcul prédéfinies, allant de petite à moyenne à grande. Alternativement, vous avez également la possibilité de personnaliser la taille de calcul en fonction de vos exigences spécifiques et de vos besoins en temps réel.

Notes

La reconfiguration du numéro DIU n’affecte pas l’exécution actuelle de l’activité de copie.

Notes

La mesure d’unité d’intégration de données (DIU) de 2 DIU n’est pas prise en charge pour l’activité de copie dans un réseau virtuel managé.

La DIU que vous sélectionnez dans la TTL sera utilisée pour exécuter toutes les activités de copie, la taille de la DIU ne sera pas mise à l’échelle automatiquement en fonction des besoins réels. Vous devez donc choisir suffisamment de DIU.

Avertissement

Si peu de DIU sont sélectionnées pour exécuter de nombreuses activités, celles-ci seront en file d’attente, ce qui affectera sérieusement les performances globales.

Pipeline et activité externe

Comme pour la copie, vous avez la possibilité d'adapter la taille de calcul et la durée TTL en fonction de vos besoins spécifiques. Cependant, contrairement à la copie, veuillez noter que le pipeline et le TTL externe ne peuvent pas être désactivés.

Notes

La durée de vie s’applique uniquement au réseau virtuel managé.

Capture montrant la configuration de la durée de vie (TTL).

Vous pouvez utiliser le tableau ci-dessous comme référence pour déterminer le nombre optimal de nœuds pour l’exécution de pipelines et d’activités externes.

Type d’activité max.
Activité de pipeline Environ 50 par nœud
L’activité de script et l’activité de recherche avec SQL alwaysEncrypted ont tendance à consommer plus de ressources que d’autres activités de pipeline, le nombre suggéré étant d’environ 10 par nœud
Activité externe Environ 800 par nœud

Comparaison de différentes TTL

Le tableau suivant répertorie les différences entre différents types de TTL :

Fonctionnalité Création interactive Copier l’échelle de calcul Pipeline et Échelle de calcul externe
Entrée en vigueur Immédiatement après l’activation Exécution de la première activité Exécution de la première activité
Peut être désactivé Y O N
Le calcul réservé est configurable N O O

Notes

Vous ne pouvez pas activer la durée de vie dans le runtime d’intégration Azure de résolution automatique par défaut. Vous pouvez créer un runtime d’intégration Azure.

Remarque

Lorsque la TTL de copie/pipeline/échelle de calcul externe est activée, la facturation est déterminée par les ressources de calcul réservées. Par conséquent, la sortie de l’activité n’inclut pas la billingReference (référence de facturation), car celle-ci n’est pertinente que dans les scénarios non-TTL.

Créer un réseau virtuel managé via Azure PowerShell

$subscriptionId = ""
$resourceGroupName = ""
$factoryName = ""
$managedPrivateEndpointName = ""
$integrationRuntimeName = ""
$apiVersion = "2018-06-01"
$privateLinkResourceId = ""

$vnetResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/managedVirtualNetworks/default"
$privateEndpointResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/managedVirtualNetworks/default/managedprivateendpoints/${managedPrivateEndpointName}"
$integrationRuntimeResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/integrationRuntimes/${integrationRuntimeName}"

# Create managed Virtual Network resource
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${vnetResourceId}" -Properties @{}

# Create managed private endpoint resource
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${privateEndpointResourceId}" -Properties @{
        privateLinkResourceId = "${privateLinkResourceId}"
        groupId = "blob"
    }

# Create integration runtime resource enabled with virtual network
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${integrationRuntimeResourceId}" -Properties @{
        type = "Managed"
        typeProperties = @{
            computeProperties = @{
                location = "AutoResolve"
                dataFlowProperties = @{
                    computeType = "General"
                    coreCount = 8
                    timeToLive = 0
                }
            }
        }
        managedVirtualNetwork = @{
            type = "ManagedVirtualNetworkReference"
            referenceName = "default"
        }
    }

Notes

Vous pouvez obtenir le groupId d’autres sources de données à partir d’une ressource de liaison privée.

Remarque

Le referenceName ne doit être défini que sur « default » si vous créez via la commande PowerShell.

Connexion sortante

Sources de données et services pris en charge

Les services suivants bénéficient d’une prise en charge des points de terminaison privés natifs. Ils peuvent être connectés via une liaison privée à partir d’un réseau virtuel managé Data Factory :

  • Azure Databricks
  • Azure Functions (plan Premium)
  • Azure Key Vault
  • Azure Machine Learning
  • Azure Private Link
  • Microsoft.Purview

Pour la prise en charge des sources de données, vous pouvez consulter la vue d’ensemble du connecteur. Vous pouvez accéder à toutes les sources de données prises en charge par Data Factory via un réseau public.

Sources de données locales

Pour savoir comment accéder à des sources de données locales à partir d’un réseau virtuel managé en utilisant un point de terminaison privé, consultez Accéder à un serveur SQL local à partir d’un réseau virtuel managé Data Factory en utilisant un point de terminaison privé.

Communications sortantes via un point de terminaison public à partir d’un réseau virtuel managé Data Factory

Tous les ports sont ouverts pour les communications sortantes.

Limitations et problèmes connus

Création d’un service lié pour Key Vault

Quand vous créez un service lié pour Key Vault, il n’y a pas de référence de runtime d’intégration. Vous ne pouvez donc pas créer de points de terminaison privés pendant la création du service lié de Key Vault. Toutefois, quand vous créez un service lié pour des magasins de données qui référence Key Vault et que ce service lié référence un runtime d’intégration avec un réseau virtuel managé activé, vous pouvez créer un point de terminaison privé pour Key Vault pendant la création.

  • Tester la connexion : cette opération pour un service lié de Key Vault valide uniquement le format d’URL, mais n’effectue aucune opération sur le réseau.
  • Utilisant un point de terminaison privé : cette colonne est toujours indiquée comme vide, même si vous créez un point de terminaison privé pour Key Vault.

Création d’un service lié d’Azure HDInsight

La colonne Utilisation d’un point de terminaison privé s’affiche toujours vide, même si vous créez un point de terminaison privé pour HDInsight en utilisant un service de liaison privée et un équilibreur de charge avec transfert de port.

Capture d’écran montrant un point de terminaison privé pour Key Vault.

Nom de domaine complet (FQDN) d’Azure HDInsight

Si vous avez créé un service de liaison privée personnalisé, le nom de domaine complet doit se terminer par azurehdinsight.net sans commencer par privatelink quand vous créez un point de terminaison privé. Si vous utilisez privatelink dans le nom de domaine, assurez-vous qu’il est valide et que vous êtes en mesure de le résoudre.

Contraintes d’accès dans un réseau virtuel managé avec des points de terminaison privés

Vous ne pouvez pas accéder à chaque ressource PaaS lorsque les deux côtés sont exposés via Private Link et un point de terminaison privé. Ce problème est une limitation connue de Private Link et des points de terminaison privés.

Par exemple, vous disposez d’un point de terminaison privé managé pour le compte de stockage A. Vous pouvez également accéder au compte de stockage B via un réseau public dans le même réseau virtuel managé. Toutefois, lorsque le compte de stockage B dispose d’une connexion de point de terminaison privé à partir d’un autre réseau virtuel managé ou d’un réseau virtuel client, vous ne pouvez pas accéder au compte de stockage B dans votre réseau virtuel managé via un réseau public.

Consultez les didacticiels suivants :