Обзор архитектуры Azure Databricks
В этой статье представлен общий обзор архитектуры Azure Databricks, включая ее корпоративную архитектуру в сочетании с Azure.
Высокоуровневая архитектура
Azure Databricks работает из плоскости управления и вычислительной плоскости.
Уровень управления включает внутренние службы, которыми управляет Azure Databricks в учетной записи Azure Databricks. Веб-приложение находится в плоскости управления.
Плоскость вычислений — это место обработки данных. Существует два типа вычислительных плоскостей в зависимости от используемого вычислительных ресурсов.
- Для бессерверных вычислений бессерверные вычислительные ресурсы выполняются в бессерверной вычислительной плоскости в учетной записи Azure Databricks.
- Для классических вычислений Azure Databricks вычислительные ресурсы находятся в подписке Azure в том, что называется классической вычислительной плоскости. Это относится к сети в подписке Azure и ее ресурсах.
Дополнительные сведения о классических вычислениях и бессерверных вычислениях см. в разделе "Типы вычислений".
Каждая рабочая область Azure Databricks имеет связанную учетную запись хранения, известную как учетная запись хранения рабочей области. Учетная запись хранения рабочей области находится в подписке Azure.
На следующей схеме описана общая архитектура Azure Databricks.
Бессерверная плоскость вычислений
В бессерверной вычислительной плоскости вычислительные ресурсы Azure Databricks выполняются в вычислительном слое в учетной записи Azure Databricks. Azure Databricks создает бессерверную плоскость вычислений в том же регионе Azure, что и классическая плоскость вычислений рабочей области. Этот регион выбирается при создании рабочей области.
Чтобы защитить данные клиентов в плоскости бессерверных вычислений, бессерверные вычисления выполняются в пределах сетевой границы рабочей области с различными уровнями безопасности для изоляции различных рабочих областей клиентов Azure Databricks и дополнительных сетевых элементов управления между кластерами одного и того же клиента.
Дополнительные сведения о сети в бессерверной вычислительной плоскости— сети бессерверных вычислений.
Классическая плоскость вычислений
В классической вычислительной плоскости вычислительные ресурсы Azure Databricks выполняются в подписке Azure. Новые вычислительные ресурсы создаются в виртуальной сети каждой рабочей области в подписке Azure клиента.
Классическая плоскость вычислений имеет естественную изоляцию, так как она выполняется в собственной подписке Azure каждого клиента. Дополнительные сведения о сети в классической плоскости вычислений см. в статье "Классические сети плоскости вычислений".
Сведения о региональной поддержке см. в регионах Azure Databricks.
Учетная запись хранения рабочей области
При создании рабочей области Azure Databricks создает учетную запись в подписке Azure для использования в качестве учетной записи хранения рабочей области.
Учетная запись хранения рабочей области содержит следующее:
- Системные данные рабочей области: данные системы рабочей области создаются при использовании различных функций Azure Databricks, таких как создание записных книжек. В этом контейнере содержатся редакции записных книжек, сведения о выполнении задания, результаты команд и журналы Spark
- DBFS: DBFS (Databricks File System) — это распределенная файловая система в средах Azure Databricks, доступная в
dbfs:/
пространстве имен. Корневое подключение DBFS и DBFS находятся вdbfs:/
пространстве имен. Хранение и доступ к данным с помощью корневых подключений DBFS или DBFS является устаревшим шаблоном, а не рекомендуется Databricks. Дополнительные сведения см. в разделе "Что такое DBFS?". - Каталог рабочей области каталога Unity: если рабочая область включена для каталога Unity автоматически, учетная запись хранения рабочей области содержит каталог рабочей области по умолчанию. Все пользователи в рабочей области могут создавать ресурсы в схеме по умолчанию в этом каталоге. См. статью "Настройка каталога Unity" и управление ими.
Чтобы ограничить доступ к учетной записи хранения рабочей области только из авторизованных ресурсов и сетей, см . раздел "Включить поддержку брандмауэра для учетной записи хранения рабочей области".