Обзор архитектуры Azure Databricks

В этой статье представлен общий обзор архитектуры Azure Databricks, включая ее корпоративную архитектуру в сочетании с Azure.

Высокоуровневая архитектура

Azure Databricks работает из плоскости управления и вычислительной плоскости.

  • Уровень управления включает внутренние службы, которыми управляет Azure Databricks в учетной записи Azure Databricks. Веб-приложение находится в плоскости управления.

  • Плоскость вычислений — это место обработки данных. Существует два типа вычислительных плоскостей в зависимости от используемого вычислительных ресурсов.

    • Для бессерверных вычислений бессерверные вычислительные ресурсы выполняются в бессерверной вычислительной плоскости в учетной записи Azure Databricks.
    • Для классических вычислений Azure Databricks вычислительные ресурсы находятся в подписке Azure в том, что называется классической вычислительной плоскости. Это относится к сети в подписке Azure и ее ресурсах.

    Дополнительные сведения о классических вычислениях и бессерверных вычислениях см. в разделе "Типы вычислений".

Каждая рабочая область Azure Databricks имеет связанную учетную запись хранения, известную как учетная запись хранения рабочей области. Учетная запись хранения рабочей области находится в подписке Azure.

На следующей схеме описана общая архитектура Azure Databricks.

Схема: архитектура Databricks

Бессерверная плоскость вычислений

В бессерверной вычислительной плоскости вычислительные ресурсы Azure Databricks выполняются в вычислительном слое в учетной записи Azure Databricks. Azure Databricks создает бессерверную плоскость вычислений в том же регионе Azure, что и классическая плоскость вычислений рабочей области. Этот регион выбирается при создании рабочей области.

Чтобы защитить данные клиентов в плоскости бессерверных вычислений, бессерверные вычисления выполняются в пределах сетевой границы рабочей области с различными уровнями безопасности для изоляции различных рабочих областей клиентов Azure Databricks и дополнительных сетевых элементов управления между кластерами одного и того же клиента.

Дополнительные сведения о сети в бессерверной вычислительной плоскости— сети бессерверных вычислений.

Классическая плоскость вычислений

В классической вычислительной плоскости вычислительные ресурсы Azure Databricks выполняются в подписке Azure. Новые вычислительные ресурсы создаются в виртуальной сети каждой рабочей области в подписке Azure клиента.

Классическая плоскость вычислений имеет естественную изоляцию, так как она выполняется в собственной подписке Azure каждого клиента. Дополнительные сведения о сети в классической плоскости вычислений см. в статье "Классические сети плоскости вычислений".

Сведения о региональной поддержке см. в регионах Azure Databricks.

Учетная запись хранения рабочей области

При создании рабочей области Azure Databricks создает учетную запись в подписке Azure для использования в качестве учетной записи хранения рабочей области.

Учетная запись хранения рабочей области содержит следующее:

  • Системные данные рабочей области: данные системы рабочей области создаются при использовании различных функций Azure Databricks, таких как создание записных книжек. В этом контейнере содержатся редакции записных книжек, сведения о выполнении задания, результаты команд и журналы Spark
  • DBFS: DBFS (Databricks File System) — это распределенная файловая система в средах Azure Databricks, доступная в dbfs:/ пространстве имен. Корневое подключение DBFS и DBFS находятся в dbfs:/ пространстве имен. Хранение и доступ к данным с помощью корневых подключений DBFS или DBFS является устаревшим шаблоном, а не рекомендуется Databricks. Дополнительные сведения см. в разделе "Что такое DBFS?".
  • Каталог рабочей области каталога Unity: если рабочая область включена для каталога Unity автоматически, учетная запись хранения рабочей области содержит каталог рабочей области по умолчанию. Все пользователи в рабочей области могут создавать ресурсы в схеме по умолчанию в этом каталоге. См. статью "Настройка каталога Unity" и управление ими.

Чтобы ограничить доступ к учетной записи хранения рабочей области только из авторизованных ресурсов и сетей, см . раздел "Включить поддержку брандмауэра для учетной записи хранения рабочей области".