Преобразование данных в Фабрике данных Azure и Azure Synapse Analytics

Статья
05/15/2024

ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

Внимание

Поддержка Машинное обучение Azure Studio (классическая) завершится 31 августа 2024 г. Мы рекомендуем перейти на Машинное обучение Azure по этой дате.

По состоянию на 1 декабря 2021 г. нельзя создавать новые ресурсы Машинное обучение Studio (классический) (рабочая область и план веб-службы). До 31 августа 2024 г. вы можете продолжать использовать существующие эксперименты Машинное обучение Studio (классические) и веб-службы. Дополнительные сведения см. в разделе:

Машинное обучение Studio (классическая) документация не обновляется и может не обновляться в будущем.

Обзор

В этой статье объясняются действия по преобразованию данных в Фабрике данных Azure и конвейерах Synapse, с помощью которых можно преобразовывать необработанные данные в прогнозные и аналитические данные в большом масштабе. Действие по преобразованию выполняется в вычислительной среде, например в Azure Databricks или Azure HDInsight. Статья содержит ссылки на статьи с подробными сведениями о каждом действии преобразования.

Служба поддерживает указанные ниже действия преобразования, которые вы можете добавлять в конвейеры как по отдельности, так и в цепочке с другим действием.

Собственное преобразование в Фабрике данных Azure и Azure Synapse Analytics с помощью потоков данных

Сопоставление потоков данных

Потоки данных для сопоставления — это визуально спроектированные преобразования данных в Фабрике данных Azure и Azure Synapse. Потоки данных позволяют инженерам по обработке данных разрабатывать логику преобразования графических данных без написания кода. Результирующие потоки данных выполняются как действия в конвейерах, использующих кластеры Spark с горизонтальным увеличением масштаба. Действия потока данных можно применять через уже имеющиеся средства планирования, управления, потока и мониторинга в службе. Дополнительные сведения см. в статье Потоки данных для сопоставления.

Общие сведения о первичной обработке данных

Power Query в Фабрике данных Azure обеспечивает первичную обработку данных с облачным масштабированием, что позволяет интерактивно выполнять подготовку данных без кода в масштабе облака. Первичная обработка данных объединяется с Power Query Online и делает функции Power Query M доступными для первичной обработки данных в масштабе облака с помощью выполнения Spark. Дополнительные сведения см. в статье Первичная обработка данных в Фабрике данных Azure.

Примечание.

Power Query в настоящее время поддерживается только в Фабрике данных Azure, а не в Azure Synapse. Список конкретных функций, поддерживаемых в каждой службе, см. в статье Доступные функции в Фабрике данных Azure и конвейерах Azure Synapse Analytics.

Внешние преобразования

Если необходимо, можно самостоятельно вручную написать код для преобразования и управления внешней вычислительной средой.

Действие Hive HDInsight

Действие Hive HDInsight в конвейере выполняет запросы Hive к вашему собственному кластеру HDInsight или кластеру HDInsight по запросу под управлением Windows или Linux. Дополнительные сведения об этом действии см. в статье Преобразование данных с помощью действия Hadoop Hive в фабрике данных Azure.

Действие Pig HDInsight

Действие Pig HDInsight в конвейере выполняет запросы Pig к вашему собственному кластеру HDInsight или кластеру HDInsight по запросу под управлением Windows или Linux. Дополнительные сведения об этом действии см. в статье Преобразование данных с помощью действия Hadoop Pig в фабрике данных Azure.

Действие MapReduce HDInsight

Действие MapReduce HDInsight в конвейере выполняет программы MapReduce для вашего собственного кластера HDInsight или кластера HDInsight по запросу под управлением Windows или Linux. Дополнительные сведения об этом действии см. в статье Преобразование данных с помощью действия MapReduce в фабрике данных Azure.

Действие потоковой передачи HDInsight

Действие потоковой передачи HDInsight в конвейере выполняет программы потоковой передачи Hadoop для вашего собственного кластера HDInsight или кластера HDInsight по запросу под управлением Windows или Linux. Дополнительные сведения об этом действии см. в разделе Потоковая активность Hadoop.

Действие HDInsight Spark

Действие HDInsight Spark в конвейере выполняет программы Spark в вашем кластере HDInsight. Дополнительные сведения см. на этой странице.

Действия Студии машинного обучения (классической)

Внимание

Машинное обучение Studio (классическая) документация не обновляется и может не обновляться в будущем.

Служба позволяет легко создавать конвейеры, использующие опубликованную веб-службу "Студия машинного обучения (классическая)" для прогнозной аналитики. С помощью действия Batch Execution в конвейере можно вызывать веб-службу "Студия машинного обучения (классическая)" для создания прогнозов по данным в пакете.

Со временем прогнозные модели из оценивающих экспериментов Машинного обучения Azure (классическая модель) потребуют повторного обучения с помощью новых наборов входных данных. Когда повторное обучение будет завершено, вам потребуется обновить веб-службу оценки на основании обновленной модели машинного обучения. Чтобы обновить веб-службу с помощью заново обученной модели, можно использовать действие обновления ресурса.

Дополнительные сведения об этих действиях Студии (классическая) см. в статье Использование действий Студии машинного обучения (классической).

Действие хранимой процедуры

C помощью действия хранимой процедуры SQL Server в конвейере Фабрики данных можно вызвать хранимую процедуру одного из следующих хранилищ данных: База данных SQL Azure, Azure Synapse Analytics, База данных SQL Server на предприятии или в виртуальной машине Azure. Дополнительные сведения см. в статье Преобразование данных с помощью действия хранимой процедуры SQL Server в фабрике данных Azure.

Действие U-SQL в Data Lake Analytics

Действие U-SQL Data Lake Analytics запускает скрипт U-SQL для кластера Azure Data Lake Analytics. Дополнительные сведения см. в статье Преобразование данных с помощью сценариев U-SQL в Azure Data Lake Analytics.

Действие Notebook в Azure Synapse

Действие запуска записной книжки Azure Synapse в конвейере Synapse запускает записную книжку Synapse в рабочей области Azure Synapse. См. статью Преобразование данных с помощью записной книжки Azure Synapse.

Действие Notebook в Databricks

Действие Notebook Azure Databricks в конвейере запускает записную книжку Databricks в рабочей области Azure Databricks. Azure Databricks — это управляемая платформа для запуска Apache Spark. См. раздел Преобразование данных с помощью записной книжки Databricks.

Действие JAR в Databricks

Действие Jar в Azure Databricks в конвейере позволяет запускать файл Spark Jar в кластере Azure Databricks. Azure Databricks — это управляемая платформа для запуска Apache Spark. См. раздел Преобразование данных с помощью выполнения действий Jar в Azure Databricks.

Действие Python в Databricks

Действие Python в Azure Databricks в конвейере позволяет запустить файл Python в кластере Azure Databricks. Azure Databricks — это управляемая платформа для запуска Apache Spark. См. раздел Преобразование данных с помощью выполнения действий Python в Azure Databricks.

Настраиваемое действие

Если вам нужно преобразовать данные способом, который не поддерживается фабрикой данных Azure, то можно создать настраиваемое действие с собственной логикой обработки данных и использовать это действие в конвейере. Можно настроить запуск настраиваемого действия .NET с помощью пакетной службы Azure или кластера HDInsight. Дополнительные сведения см. в разделе Использование настраиваемых действий в конвейере фабрики данных Azure.

Можно создать настраиваемое действие для выполнения сценариев R в кластере HDInsight, где установлена среда R. Ознакомьтесь с примером на странице Запуск сценария R с помощью конвейеров Фабрики данных Azure и Synapse.

Вычислительные среды

Вы создаете связанную службу для среды вычислений, а затем используете эту службу при определении действия преобразования. Имеется два поддерживаемых типа вычислительных сред.

По требованию: в этом случае вычислительная среда полностью управляется службой. Среда автоматически создается службой перед отправкой задания для обработки данных и удаляется после его выполнения. Вы можете настраивать и изменять для вычислительной среды "по требованию" детализированные параметры выполнения задания, управления кластером и действий начальной загрузки.
Собственная: в этом случае вы регистрируете собственную вычислительную среду (например, кластер HDInsight) и используете ее в качестве связанной службы. Вы будете управлять средой вычислений, а служба — использовать ее для выполнения действий.

В статье Связанные службы вычислений описываются поддерживаемые службы вычислений.

Пример использования действия преобразования см. в руководстве Преобразование данных в облаке с помощью действия Spark в фабрике данных Azure.

Поделиться через

Преобразование данных в Фабрике данных Azure и Azure Synapse Analytics

Обзор

Собственное преобразование в Фабрике данных Azure и Azure Synapse Analytics с помощью потоков данных

Сопоставление потоков данных

Общие сведения о первичной обработке данных

Внешние преобразования

Действие Hive HDInsight

Действие Pig HDInsight

Действие MapReduce HDInsight

Действие потоковой передачи HDInsight

Действие HDInsight Spark

Действия Студии машинного обучения (классической)

Действие хранимой процедуры

Действие U-SQL в Data Lake Analytics

Действие Notebook в Azure Synapse

Действие Notebook в Databricks

Действие JAR в Databricks

Действие Python в Databricks

Настраиваемое действие

Вычислительные среды

Обратная связь

Дополнительные ресурсы

Поделиться через

Преобразование данных в Фабрике данных Azure и Azure Synapse Analytics

Обзор

Собственное преобразование в Фабрике данных Azure и Azure Synapse Analytics с помощью потоков данных

Сопоставление потоков данных

Общие сведения о первичной обработке данных

Внешние преобразования

Действие Hive HDInsight

Действие Pig HDInsight

Действие MapReduce HDInsight

Действие потоковой передачи HDInsight

Действие HDInsight Spark

Действия Студии машинного обучения (классической)

Действие хранимой процедуры

Действие U-SQL в Data Lake Analytics

Действие Notebook в Azure Synapse

Действие Notebook в Databricks

Действие JAR в Databricks

Действие Python в Databricks

Настраиваемое действие

Вычислительные среды

Связанный контент

Обратная связь

Дополнительные ресурсы