Выбор технологии пакетной обработки в Azure

Статья
08/01/2024

Решения больших данных часто состоят из дискретных задач пакетной обработки, которые способствуют общему решению обработки данных. Пакетную обработку можно использовать для рабочих нагрузок, которые не требуют немедленного доступа к аналитическим сведениям. Пакетная обработка может дополнять требования к обработке в режиме реального времени. Вы также можете использовать пакетную обработку для балансировки сложности и снижения затрат на общую реализацию.

Основным требованием подсистем пакетной обработки является горизонтальное масштабирование вычислений для обработки большого объема данных. В отличие от обработки в режиме реального времени, пакетная обработка имеет задержки или время между приемом данных и вычислением результата, в минутах или часах.

Выбор технологии для пакетной обработки

Корпорация Майкрософт предлагает несколько служб, которые можно использовать для пакетной обработки.

Microsoft Fabric

Microsoft Fabric — это единая аналитика и платформа данных для организаций. Это программное обеспечение как услуга, которое упрощает подготовку, управление и управление комплексным решением аналитики. Структура обрабатывает перемещение данных, обработку, прием, преобразование и отчеты. Функции Структуры, используемые для пакетной обработки, включают проектирование данных, хранилища данных, озера и обработку Apache Spark. Фабрика данных Azure в Fabric также поддерживает lakehouses. Чтобы упростить и ускорить разработку, можно включить copilot на основе искусственного интеллекта.

Языки: R, Python, Java, Scala и SQL
Безопасность: управляемая виртуальная сеть и управление доступом на основе ролей OneLake (RBAC)
Основное хранилище: OneLake с сочетаниями клавиш и параметрами зеркального отображения
Spark: предварительно подготовленный начальный пул и пользовательский пул Spark с предопределенными размерами узлов

Azure Synapse Analytics

Azure Synapse Analytics — это корпоративная служба аналитики, которая объединяет технологии SQL и Spark в рамках одной конструкции рабочей области. Azure Synapse Analytics упрощает безопасность, управление и управление. Каждая рабочая область содержит интегрированные конвейеры данных, которые можно использовать для создания комплексных рабочих процессов. Вы также можете подготовить выделенный пул SQL для крупномасштабной аналитики, бессерверную конечную точку SQL, которую можно использовать для прямого запроса к озеру, а также среду выполнения Spark для распределенной обработки данных.

Языки: Python, Java, Scala и SQL
Безопасность: управляемая виртуальная сеть, RBAC и управление доступом и списки управления доступом к хранилищу в Azure Data Lake Storage
Основное хранилище: Data Lake Storage, а также интегрируется с другими источниками
Spark: настраиваемая настройка конфигурации Spark с предопределенными размерами узлов

Azure Databricks

Azure Databricks — это платформа аналитики на основе Spark. Она предоставляет широкие возможности и функции Spark уровня "Премиум", созданные на основе Spark с открытым кодом. Azure Databricks — это служба Майкрософт, которая интегрируется с остальными службами Azure. Она содержит дополнительные конфигурации для развертываний кластера Spark. И каталог Unity помогает упростить управление объектами Azure Databricks Spark.

Языки: R, Python, Java, Scala и Spark SQL.
Безопасность: проверка подлинности пользователей с помощью идентификатора Microsoft Entra.
Основное хранилище: встроенная интеграция с Хранилище BLOB-объектов Azure, Data Lake Storage, Azure Synapse Analytics и другими службами. Дополнительные сведения см. в разделе "Источники данных".

Другие преимущества:

Записные книжки на основе веб-технологий для совместной работы и просмотра данных.
Время быстрого запуска кластера, автоматическое завершение и автомасштабирование.
Поддержка кластеров с поддержкой GPU.

Основные критерии выбора

Чтобы выбрать технологию пакетной обработки, рассмотрите следующие вопросы:

Хотите ли вы управлять управляемыми службами или управлять собственными серверами?
Какой подход будет использоваться для создания логики пакетной обработки: декларативный или императивный?
Выполняется ли пакетная обработка при всплесках? Если да, рассмотрите варианты, которые предоставляют возможность автоматического завершения кластера или с моделями ценообразования для каждого пакетного задания.
Нужно ли отправлять запросы к реляционным хранилищами данных во время пакетной обработки, например для поиска эталонных данных? Если да, рассмотрите варианты, которые предоставляют возможность запрашивать внешние реляционные хранилища.

Матрица возможностей

В следующих таблицах приведены основные различия в возможностях между службами.

Общие возможности

Возможность	Fabric	Azure Synapse Analytics	Azure Databricks
Программное обеспечение как услуга	Да¹	No	No
Управляемая служба	No	Да	Да
Реляционное хранилище данных	Да	Да	Да
Модель ценообразования	Единицы емкости	Час пула SQL или кластера	Единица 2^{и час}кластера Azure Databricks

[1] Назначенная емкость Fabric.

[2] Единица Azure Databricks — это возможность обработки в час.

Другие возможности

Возможность	Fabric	Azure Synapse Analytics	Azure Databricks
Автомасштабирование	No	No	Да
Степень детализации при горизонтальном масштабировании	Номер SKU Для Структуры	Для каждого кластера или пула SQL	По кластерам
Выполняющееся в памяти кэширование данных	No	Да	Да
Отправка запросов из внешних реляционных хранилищ	Да	No	Да
Проверка подлинности	Microsoft Entra ID	ИДЕНТИФИКАТОР SQL или Microsoft Entra	Microsoft Entra ID
Аудит	Да	Да	Да
Безопасность на уровне строк	Да	Да ¹	Да
Поддержка брандмауэров	Да	Да	Да
Динамическое маскирование данных	Да	Да	Да

[1] Только предикаты фильтра. Дополнительные сведения см. в разделе "Безопасность на уровне строк".

Соавторы

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участниками.

Основные авторы:

Зойнер Теджада | Генеральный директор и архитектор
Пратима Валавала | Архитектор основных решений

Чтобы просмотреть недоступные профили LinkedIn, войдите в LinkedIn.

Поделиться через

Выбор технологии пакетной обработки в Azure

Выбор технологии для пакетной обработки

Microsoft Fabric

Azure Synapse Analytics

Azure Databricks

Основные критерии выбора

Матрица возможностей

Общие возможности

Другие возможности

Соавторы

Следующие шаги

Обратная связь

Дополнительные ресурсы

Поделиться через

Выбор технологии пакетной обработки в Azure

Выбор технологии для пакетной обработки

Microsoft Fabric

Azure Synapse Analytics

Azure Databricks

Основные критерии выбора

Матрица возможностей

Общие возможности

Другие возможности

Соавторы

Следующие шаги

Связанные ресурсы

Обратная связь

Дополнительные ресурсы