データ ファクトリ パイプラインを操作する

完了

データ ファクトリ パイプラインを操作するには、Azure Data Factory のパイプラインがどのようなものかを理解する必要があります。

Azure Data Factory のパイプラインは、アクティビティの論理的なグループを表しており、それらのアクティビティが組み合わさって特定のタスクを実行します。

1 つのパイプライン内でアクティビティを組み合わせる例として、ログ データの取り込みと除去を、除去されたログ データを分析するマッピング データ フローと組み合わせて行うことができます。

パイプラインを使用すると、個々のアクティビティをセットとして管理できます (使用しない場合は個別に管理されます)。 そうすれば、各アクティビティを別々に管理する場合と比べて、1 つのパイプラインを使用することによってアクティビティを効率的にデプロイおよびスケジュールすることができます。

パイプライン内のアクティビティは、データに対して実行するアクションと呼ばれます。 アクティビティは 0 個以上の入力データセットを受け取り、1 個以上の出力データセットを生成できます。

アクションの一例として、コピー アクティビティの使用があります。この場合、Azure SQL Database から Azure DataLake Storage Gen2 にデータをコピーします。 この例を基にした場合、データ フロー アクティビティまたは Azure Databricks Notebook アクティビティを使用して、Azure Data Lake Storage Gen2 アカウントにコピーされたデータの処理と変換を行うことができます。これにより、Azure Synapse Analytics のようなビジネス インテリジェンス レポート ソリューション用のデータを準備することができます。

Azure Data Factory のパイプラインには多くのアクティビティが存在する可能性があるため、それらのアクティビティを以下の 3 つのカテゴリに分類しました。

  • ''データ移動アクティビティ'': Data Factory のコピー アクティビティでは、ソース データ ストアからシンク データ ストアにデータをコピーします。
  • データ変換アクティビティ: Azure Data Factory では、データ フロー、Azure 関数、Spark などの変換アクティビティがサポートされており、それらを個別に、または別のアクティビティと連結した状態でパイプラインに追加できます。
  • 制御アクティビティ: 制御フロー アクティビティの例として、"メタ データの取得"、"For Each"、"パイプラインの実行" などがあります。

アクティビティは相互に依存させることができます。 つまり、アクティビティの依存関係では、後続のアクティビティが前のアクティビティにどのように依存するかを定義します。 依存関係自体は、タスクを完了するために、前に定義されたアクティビティの実行を続けるかどうかという条件に基づいて設定できます。 1 つ以上の前のアクティビティに依存しているアクティビティには、さまざまな依存関係の条件が含まれている可能性があります。

依存関係の 4 つの条件を以下に示します。

  • 成功
  • 失敗
  • スキップ
  • 完了

たとえば、パイプラインにアクティビティ A、その後にアクティビティ B があり、アクティビティ B にアクティビティ A に対する依存関係の条件として "成功" が設定されている場合、アクティビティ B はアクティビティ A の状態が "成功" の場合にのみ実行されます。

1 つのパイプラインに複数のアクティビティがあり、後続のアクティビティが前のアクティビティに依存していない場合、これらのアクティビティは並列に実行されることもあります。