Azure Data Factory および Azure Synapse Analytics でデータを変換する
適用対象: Azure Data Factory Azure Synapse Analytics
ヒント
企業向けのオールインワン分析ソリューション、Microsoft Fabric の Data Factory をお試しください。 Microsoft Fabric は、データ移動からデータ サイエンス、リアルタイム分析、ビジネス インテリジェンス、レポートまで、あらゆるものをカバーしています。 無料で新しい試用版を開始する方法について説明します。
重要
Azure Machine Learning スタジオ (クラシック) のサポートは、2024 年 8 月 31 日に終了します。 その日までに、Azure Machine Learning に切り替えることをおすすめします。
2021 年 12 月 1 日の時点で、新しい Machine Learning Studio (クラシック) リソース (ワークスペースと Web サービス プラン) を作成することはできません。 2024 年 8 月 31 日まで、既存の Machine Learning スタジオ (クラシック) の実験と Web サービスを引き続き使用できます。 詳細については、以下を参照してください:
Machine Learning Studio (クラシック) のドキュメントは廃止予定であり、今後更新されない可能性があります。
概要
この記事では、Azure Data Factory および Synapse パイプラインでのデータ変換アクティビティについて説明します。これを使用すると、大規模な生データを予測と分析情報に変換して処理することができます。 変換アクティビティは、Azure Databricks や Azure HDInsight などのコンピューティング環境で実行されます。 各変換アクティビティの詳細情報に関する記事へのリンクが提供されています。
このサービスは、次のデータ変換アクティビティをサポートしています。これらは、個別にまたは他のアクティビティと連結してパイプラインに追加できます。
データ フローを使用して Azure Data Factory および Azure Synapse Analytics でネイティブに変換する
データ フローのマッピング
マッピング データ フローは、Azure Data Factory および Azure Synapse における視覚的に設計されたデータ変換です。 データ フローを使用すると、データ エンジニアは、コードを記述することなくグラフィカルなデータ変換ロジックを開発できます。 生成されたデータ フローは、スケールアウトされた Spark クラスターを使用するパイプライン内のアクティビティとして実行されます。 データ フロー アクティビティは、サービス内の既存のスケジュール設定、制御、フロー、および監視機能を通して運用化できます。 詳細については、マッピング データ フローに関するページを参照してください。
データ ラングリング
Azure Data Factory の Power Query を使用すると、クラウド規模のデータ ラングリングを実行できます。これにより、コード不要のデータ準備をクラウド規模で反復的に実行できます。 データ ラングリングは Power Query Online と統合されており、Spark の実行によりクラウド規模で Power Query M 関数をデータ ラングリングに使用できるようにします。 詳細については、「Azure Data Factory でのデータ ラングリング」を参照してください。
注意
Power Query は現在、Azure Data Factory でのみサポートされ、Azure Synapse ではサポートされていません。 各サービスでサポートされている具体的な機能の一覧については、Azure Data Factory および Azure Synapse Analytics のパイプラインで使用できる機能に関する記事を参照してください。
外部での変換
必要に応じて、変換を手動でコーディングし、外部のコンピューティング環境を自分で管理することもできます。
HDInsight Hive アクティビティ
パイプラインの HDInsight Hive アクティビティでは、独自またはオンデマンドの Windows/Linux ベースの HDInsight クラスターで Hive クエリを実行します。 このアクティビティの詳細については、Hive アクティビティに関する記事をご覧ください。
HDInsight Pig アクティビティ
パイプラインの HDInsight Pig アクティビティでは、独自またはオンデマンドの Windows/Linux ベースの HDInsight クラスターで Pig クエリを実行します。 このアクティビティの詳細については、Pig アクティビティに関する記事をご覧ください。
HDInsight MapReduce アクティビティ
パイプラインの HDInsight MapReduce アクティビティは、独自の、またはオンデマンドの Windows/Linux ベースの HDInsight クラスターで MapReduce プログラムを実行します。 このアクティビティの詳細については、MapReduce アクティビティに関する記事をご覧ください。
HDInsight Streaming アクティビティ
パイプラインの HDInsight Streaming アクティビティは、独自の、またはオンデマンドの Windows/Linux ベースの HDInsight クラスターで Hadoop Streaming プログラムを実行します。 このアクティビティの詳細については、記事「 HDInsight Streaming アクティビティ 」を参照してください。
HDInsight Spark アクティビティ
パイプラインの HDInsight Spark アクティビティでは、独自の HDInsight クラスターで Spark プログラムを実行します。 詳細については、Azure Data Factory またはor Azure Synapse Analytics で Spark プログラムを呼び出すことに関する記事を参照してください。
ML Studio (クラシック) アクティビティ
重要
Azure Machine Learning スタジオ (クラシック) のサポートは、2024 年 8 月 31 日に終了します。 その日までに、Azure Machine Learning に切り替えることをおすすめします。
2021 年 12 月 1 日の時点で、新しい Machine Learning Studio (クラシック) リソース (ワークスペースと Web サービス プラン) を作成することはできません。 2024 年 8 月 31 日まで、既存の Machine Learning スタジオ (クラシック) の実験と Web サービスを引き続き使用できます。 詳細については、以下を参照してください:
Machine Learning Studio (クラシック) のドキュメントは廃止予定であり、今後更新されない可能性があります。
このサービスを使用すると、公開された ML Studio (クラシック) Web サービスを利用して予測分析を行うパイプラインを簡単に作成できます。 パイプライン内で Batch Execution アクティビティを使用すると、Studio (クラシック) Web サービスを呼び出して、データの予測を一括で行うことができます。
時間の経過と共に、スタジオ (クラシック) スコア付け実験の予測モデルには、新しい入力データセットを使用した再トレーニングが必要になります。 再トレーニングが完了したら、再トレーニング済みの機械学習モデルでスコア付け Web サービスを更新する必要があります。 更新リソース アクティビティを使用して、新しくトレーニングを行ったモデルで Web サービスを更新します。
これらの Studio (クラシック) アクティビティの詳細については、ML Studio (クラシック) アクティビティの使用に関するページを参照してください。
ストアド プロシージャ アクティビティ
SQL Server ストアド プロシージャ アクティビティを Data Factory のパイプライン内で使用して、次のいずれかのデータ ストア内のストアド プロシージャを呼び出すことができます。企業または Azure VM 内の Azure SQL Database、Azure Synapse Analytics、SQL Server データベース。 詳細については、ストアド プロシージャ アクティビティに関する記事をご覧ください。
Data Lake Analytics U-SQL アクティビティ
Data Lake Analytics U-SQL アクティビティは、Azure Data Lake Analytics クラスターで U-SQL スクリプトを実行します。 詳細については、Data Analytics U-SQL アクティビティに関する記事をご覧ください。
Azure Synapse Notebook アクティビティ
Synapse パイプラインの Synapse Azure Synapse Notebook アクティビティは、Azure Synapse ワークスペースの Synapse Notebook を実行します。 Azure Synapse Notebook を実行してデータを変換することに関する記事を参照してください。
Databricks Notebook アクティビティ
パイプラインの Azure Databricks Notebook アクティビティは、Azure Databricks ワークスペースで Databricks ノートブックを実行します。 Azure Databricks は、Apache Spark を実行するための管理されたプラットフォームです。 「Databricks Notebook を実行してデータを変換する」を参照してください。
Databricks Jar アクティビティ
パイプラインの Azure Databricks Jar アクティビティは、Azure Databricks クラスターで Spark Jar を実行します。 Azure Databricks は、Apache Spark を実行するための管理されたプラットフォームです。 「Azure Databricks で Jar アクティビティを実行してデータを変換する」を参照してください。
Databricks Python アクティビティ
パイプラインの Azure Databricks Python アクティビティは、Azure Databricks クラスターで Python ファイルを実行します。 Azure Databricks は、Apache Spark を実行するための管理されたプラットフォームです。 「Azure Databricks で Python アクティビティを実行してデータを変換する」を参照してください。
カスタム アクティビティ
Data Factory でサポートされていない方法でデータを変換する必要がある場合は、独自のデータ処理ロジックを使用するカスタム アクティビティを作成し、パイプラインでそのアクティビティを使用できます。 Azure Batch サービスまたは Azure HDInsight クラスターを使用して実行するようにカスタム .NET アクティビティを構成できます。 Use custom activities (カスタム アクティビティの使用) を参照してください。
カスタム アクティビティを作成して、R がインストールされている HDInsight クラスターで R スクリプトを実行することができます。 Azure Data Factory および Synapse パイプラインを使用した R スクリプトの実行に関するトピックを参照してください。
コンピューティング環境
変換アクティビティを定義するときには、コンピューティング環境のリンクされたサービスを作成したうえで、そのサービスを使用します。 サポートされているコンピューティング環境は 2 種類あります。
- オンデマンド: この場合、コンピューティング環境はサービスで完全に管理されます。 データを処理するためのジョブが送信される前にサービスにより自動的に作成され、ジョブの完了時に削除されます。 ユーザーは、ジョブの実行、クラスターの管理、ブートストラップ アクションなどについて、オンデマンドのコンピューティング環境の詳細設定を構成および制御できます。
- 独自の環境を使用する: この場合、独自のコンピューティング環境 (HDInsight クラスターなど) をリンク サービスとして登録できます。 このコンピューティング環境はユーザーにより管理され、サービスではこの環境を使用してアクティビティを実行します。
サポートされるコンピューティング サービスの詳細については、「コンピューティングのリンクされたサービス」を参照してください。
関連するコンテンツ
変換アクティビティの使用例については、次のチュートリアルをご覧ください: チュートリアル: Spark を使用してデータを変換する