Vue d’ensemble de l’architecture Azure Databricks

Cet article donne une vue d’ensemble générale de l’architecture Azure Databricks, y compris son architecture d’entreprise en combinaison avec Azure.

Architecture générale

Azure Databricks fonctionne à partir d’un plan de contrôle et d’un plan de calcul.

  • Le plan de contrôle comprend les services back-end qu’Azure Databricks gère dans votre compte Azure Databricks. L’application web se trouve dans le plan de contrôle.

  • Le plan de calcul est l’endroit où vos données sont traitées. Il existe deux types de plans de calcul en fonction du calcul que vous utilisez.

    • Pour les calculs serverless, les ressources de calcul serverless s’exécutent dans un plan de calcul serverless dans votre compte Azure Databricks.
    • Pour les calculs Azure Databricks classiques, les ressources de calcul se trouvent dans votre abonnement Azure dans ce qu’on appelle le plan de calcul classique. Ce terme fait référence au réseau de votre abonnement Azure et à ses ressources.

    Pour en savoir plus sur le calcul classique et le calcul serverless, consultez Types de calcul.

Chaque espace de travail Azure Databricks est associé à un compte de stockage appelé compte de stockage d’espace de travail. Le compte de stockage d’espace de travail est situé dans votre abonnement Azure.

Le diagramme suivant décrit l’architecture globale d’Azure Databricks.

Diagramme : architecture de Databricks

Plan de calcul serverless

Dans le plan de calcul serverless, les ressources de calcul Azure Databricks s’exécutent dans une couche de calcul au sein de votre compte Azure Databricks. Azure Databricks crée un plan de calcul serverless dans la même région Azure que le plan de calcul classique de votre espace de travail. Sélectionnez cette région lors de la création d’un espace de travail.

Pour protéger les données client dans le plan de calcul serverless, le calcul serverless s’exécute dans une limite réseau pour l’espace de travail, avec différentes couches de sécurité pour isoler différents espaces de travail clients Azure Databricks et des contrôles réseau supplémentaires entre les clusters du même client.

Pour en savoir plus sur la mise en réseau dans le plan de calcul serverless, consultez Mise en réseau d’un plan de calcul serverless.

Plan de calcul classique

Dans le plan de calcul classique, les ressources de calcul Azure Databricks s’exécutent dans votre abonnement Azure. Les nouvelles ressources de calcul sont créées dans le réseau virtuel de chaque espace de travail dans l’abonnement Azure du client.

Un plan de calcul classique a une isolation naturelle, car il s’exécute dans l’abonnement Azure de chaque client. Pour en savoir plus sur la mise en réseau dans le plan de calcul classique, consultez Mise en réseau d’un plan de calcul classique.

Pour la prise en charge régionale, consultez Régions Azure Databricks.

Compte de stockage d’espace de travail

Lorsque vous créez un espace de travail, Azure Databricks crée un compte dans votre abonnement Azure à utiliser comme compte de stockage d’espace de travail.

Le compte de stockage d’espace de travail contient les éléments suivants :

  • Données système de l’espace de travail : les données système de l’espace de travail sont générées lorsque vous utilisez différentes fonctionnalités Azure Databricks, telles que la création de notebooks. Ce compartiment inclut les révisions de notebook, les détails des exécutions de travaux, les résultats des commandes et les journaux Spark
  • DBFS : DBFS (Databricks File System) est un système de fichiers distribué dans les environnements Azure Databricks accessible sous l’espace de noms dbfs:/. La racine et les montages DBFS se trouvent tous les deux dans l’espace de noms dbfs:/. Le stockage et l’accès aux données à l’aide de la racine DBFS ou des montages DBFS est un modèle déconseillé et non recommandé par Databricks. Pour plus d’informations, consultez l’article Qu’est-ce que DBFS ?.
  • Catalogue d’espaces de travail Unity Catalog : si Unity Catalog a été activé dans votre espace de travail de façon automatique, le compte de stockage d’espace de travail contient le catalogue d’espaces de travail par défaut. Tous les utilisateurs de votre espace de travail peuvent créer des ressources dans le schéma par défaut dans ce catalogue. Consultez Configurer et gérer Unity Catalog.

Pour limiter l’accès à votre compte de stockage d’espace de travail à partir de ressources et réseaux autorisés uniquement, consultez l’article Activer la prise en charge de pare-feu pour votre compte de stockage d’espace de travail.