Выбор технологии для оркестрации конвейеров данных в Azure
Большинство решений для работы с большими данными представляют собой повторяющиеся операции обработки данных, инкапсулированные в рабочие процессы. Оркестратор конвейеров — это средство автоматизации таких рабочих процессов. Оркестратор позволяет планировать задания, выполнять рабочие процессы и координировать зависимости между задачами.
Варианты при выборе технологии для оркестрации конвейеров данных
Ниже перечислены службы и средства в Azure, которые соответствуют основным требованиям к оркестрации конвейеров, управлению потоками и перемещению данных:
Эти службы и средства можно использовать отдельно или в сочетании, что позволяет создавать гибридные решения. Например, среда Integration Runtime (IR) в службе "Фабрика данных Azure" версии 2 изначально позволяет запускать пакеты служб SSIS в управляемой вычислительной среде Azure. Некоторые функции этих служб совпадают, но есть несколько основных отличий.
Основные критерии выбора
Чтобы ограничить количество вариантов, сначала ответьте на следующие вопросы:
Требуются ли возможности для перемещения и преобразования больших данных? Как правило, подразумевается использование от нескольких гигабайт до терабайт данных. Если да, выберите варианты, которые более всего подходят для больших данных.
Требуется ли управляемая служба, которая может работать в нужном масштабе? Если да, выберите одну из облачных служб, которые не ограничиваются вычислительной мощностью локального компьютера.
Размещены ли некоторые источники данных локально? Если да, выберите варианты, которые могут работать с облачными и локальными источниками данных или назначениями.
Исходные данные размещены в хранилище BLOB-объектов в файловой системе HDFS? Если да, выберите вариант с поддержкой запросов Hive.
Матрица возможностей
В следующих таблицах перечислены основные различия в возможностях.
Общие возможности
Возможность | Azure Data Factory | SQL Server Integration Services (SSIS); | Oozie в HDInsight. |
---|---|---|---|
Управляется | Да | No | Да |
Облачные | Да | Нет (локальные) | Да |
Необходимые условия | Подписка на Azure | SQL Server | Подписка Azure, кластер HDInsight |
Средства управления | Портал Azure, PowerShell, CLI, пакет SDK для .NET | SSMS, PowerShell | Оболочка Bash, REST API Oozie, пользовательский веб-интерфейс Oozie |
Цены | Оплата за использование | Лицензирование и плата за использование функций | Без дополнительной платы (сверх платы за использование кластера HDInsight) |
Возможности конвейера
Возможность | Azure Data Factory | SQL Server Integration Services (SSIS); | Oozie в HDInsight. |
---|---|---|---|
Копирование данных | Да | Да | Да |
Пользовательские преобразования | Да | Да | Да (задания MapReduce, Pig и Hive) |
Оценка с помощью службы "Машинное обучение Azure" | Да | Да (с помощью скриптов) | No |
Создание кластеров по запросу в HDInsight | Да | No | No |
Пакетная служба Azure | Да | No | No |
Pig, Hive, MapReduce | Да | No | Да |
Spark | Да | No | No |
Выполнение пакетов служб SSIS | Да | Да | Нет |
Поток управления | Да | Да | Да |
Доступ к локальным данным | Да | Да | Нет |
Масштабируемость
Возможность | Azure Data Factory | SQL Server Integration Services (SSIS); | Oozie в HDInsight. |
---|---|---|---|
Увеличение масштаба | Да | No | No |
Горизонтальное увеличение масштаба | Да | Нет | Да (путем добавления рабочих узлов в кластер) |
Оптимизация для больших объемов данных | Да | No | Да |
Соавторы
Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участник.
Автор субъекта:
- Зойнер Теджада | Генеральный директор и архитектор
Следующие шаги
- Конвейеры и действия в Фабрике данных Azure и Azure Synapse Analytics
- Подготовка среды выполнения интеграции Azure-SSIS в Фабрика данных Azure
- Oozie в HDInsight.