Выбор технологии пакетной обработки в Azure

Решения больших данных часто состоят из дискретных задач пакетной обработки, которые способствуют общему решению обработки данных. Пакетную обработку можно использовать для рабочих нагрузок, которые не требуют немедленного доступа к аналитическим сведениям. Пакетная обработка может дополнять требования к обработке в режиме реального времени. Вы также можете использовать пакетную обработку для балансировки сложности и снижения затрат на общую реализацию.

Основным требованием подсистем пакетной обработки является горизонтальное масштабирование вычислений для обработки большого объема данных. В отличие от обработки в режиме реального времени, пакетная обработка имеет задержки или время между приемом данных и вычислением результата, в минутах или часах.

Выбор технологии для пакетной обработки

Корпорация Майкрософт предлагает несколько служб, которые можно использовать для пакетной обработки.

Microsoft Fabric

Microsoft Fabric — это единая аналитика и платформа данных для организаций. Это программное обеспечение как услуга, которое упрощает подготовку, управление и управление комплексным решением аналитики. Структура обрабатывает перемещение данных, обработку, прием, преобразование и отчеты. Функции Структуры, используемые для пакетной обработки, включают проектирование данных, хранилища данных, озера и обработку Apache Spark. Фабрика данных Azure в Fabric также поддерживает lakehouses. Чтобы упростить и ускорить разработку, можно включить copilot на основе искусственного интеллекта.

  • Языки: R, Python, Java, Scala и SQL

  • Безопасность: управляемая виртуальная сеть и управление доступом на основе ролей OneLake (RBAC)

  • Основное хранилище: OneLake с сочетаниями клавиш и параметрами зеркального отображения

  • Spark: предварительно подготовленный начальный пул и пользовательский пул Spark с предопределенными размерами узлов

Azure Synapse Analytics

Azure Synapse Analytics — это корпоративная служба аналитики, которая объединяет технологии SQL и Spark в рамках одной конструкции рабочей области. Azure Synapse Analytics упрощает безопасность, управление и управление. Каждая рабочая область содержит интегрированные конвейеры данных, которые можно использовать для создания комплексных рабочих процессов. Вы также можете подготовить выделенный пул SQL для крупномасштабной аналитики, бессерверную конечную точку SQL, которую можно использовать для прямого запроса к озеру, а также среду выполнения Spark для распределенной обработки данных.

  • Языки: Python, Java, Scala и SQL

  • Безопасность: управляемая виртуальная сеть, RBAC и управление доступом и списки управления доступом к хранилищу в Azure Data Lake Storage

  • Основное хранилище: Data Lake Storage, а также интегрируется с другими источниками

  • Spark: настраиваемая настройка конфигурации Spark с предопределенными размерами узлов

Azure Databricks

Azure Databricks — это платформа аналитики на основе Spark. Она предоставляет широкие возможности и функции Spark уровня "Премиум", созданные на основе Spark с открытым кодом. Azure Databricks — это служба Майкрософт, которая интегрируется с остальными службами Azure. Она содержит дополнительные конфигурации для развертываний кластера Spark. И каталог Unity помогает упростить управление объектами Azure Databricks Spark.

  • Языки: R, Python, Java, Scala и Spark SQL.

  • Безопасность: проверка подлинности пользователей с помощью идентификатора Microsoft Entra.

  • Основное хранилище: встроенная интеграция с Хранилище BLOB-объектов Azure, Data Lake Storage, Azure Synapse Analytics и другими службами. Дополнительные сведения см. в разделе "Источники данных".

Другие преимущества:

  • Записные книжки на основе веб-технологий для совместной работы и просмотра данных.

  • Время быстрого запуска кластера, автоматическое завершение и автомасштабирование.

  • Поддержка кластеров с поддержкой GPU.

Основные критерии выбора

Чтобы выбрать технологию пакетной обработки, рассмотрите следующие вопросы:

  • Хотите ли вы управлять управляемыми службами или управлять собственными серверами?

  • Какой подход будет использоваться для создания логики пакетной обработки: декларативный или императивный?

  • Выполняется ли пакетная обработка при всплесках? Если да, рассмотрите варианты, которые предоставляют возможность автоматического завершения кластера или с моделями ценообразования для каждого пакетного задания.

  • Нужно ли отправлять запросы к реляционным хранилищами данных во время пакетной обработки, например для поиска эталонных данных? Если да, рассмотрите варианты, которые предоставляют возможность запрашивать внешние реляционные хранилища.

Матрица возможностей

В следующих таблицах приведены основные различия в возможностях между службами.

Общие возможности

Возможность Fabric Azure Synapse Analytics Azure Databricks
Программное обеспечение как услуга Да1 No No
Управляемая служба No Да Да
Реляционное хранилище данных Да Да Да
Модель ценообразования Единицы емкости Час пула SQL или кластера Единица 2 и час кластера Azure Databricks

[1] Назначенная емкость Fabric.

[2] Единица Azure Databricks — это возможность обработки в час.

Другие возможности

Возможность Fabric Azure Synapse Analytics Azure Databricks
Автомасштабирование No No Да
Степень детализации при горизонтальном масштабировании Номер SKU Для Структуры Для каждого кластера или пула SQL По кластерам
Выполняющееся в памяти кэширование данных No Да Да
Отправка запросов из внешних реляционных хранилищ Да No Да
Проверка подлинности Microsoft Entra ID ИДЕНТИФИКАТОР SQL или Microsoft Entra Microsoft Entra ID
Аудит Да Да Да
Безопасность на уровне строк Да Да 1 Да
Поддержка брандмауэров Да Да Да
Динамическое маскирование данных Да Да Да

[1] Только предикаты фильтра. Дополнительные сведения см. в разделе "Безопасность на уровне строк".

Соавторы

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участниками.

Основные авторы:

Чтобы просмотреть недоступные профили LinkedIn, войдите в LinkedIn.

Следующие шаги