データ パイプラインを使用してウェアハウスにデータを取り込む

適用対象: Microsoft Fabric のウェアハウス

データ パイプラインは、グラフィカル ユーザー インターフェイスを通した COPY コマンドの使用に代わる手段を提供します。 データ パイプラインは、合わさってデータ インジェスト タスクを実行する複数のアクティビティの論理的なグループです。 パイプラインを使用すると、各アクティビティを個別に管理することなく、抽出、変換、読み込み (ETL) アクティビティを管理できます。

このチュートリアルでは、Microsoft Fabric のウェアハウスにサンプル データを読み込む新しいパイプラインを作成します。

Note

Azure Data Factory の一部の機能は Microsoft Fabric では使用できませんが、概念は置き換え可能です。 Azure Data Factory と Pipelines の詳細については、「Azure Data Factory と Azure Synapse Analytics におけるパイプラインとアクティビティ」で確認できます。 クイックスタートについては、「クイックスタート: 初めてのパイプラインを作成してデータをコピーする」にアクセスしてください。

データ パイプラインを作成する

  1. 新しいパイプラインを作成するには、ワークスペースに移動し、[+新規] ボタンを選択し、[データ パイプライン] を選択します。 [新規] ボタンとオプション (ウェアハウス、データ パイプライン、全て表示) が表示されているユーザーのワークスペースの上部セクションのスクリーンショット。

  2. [新しいパイプライン] ダイアログで、新しいパイプラインの名前を指定し、[作成] を選択します。

  3. パイプライン キャンバス領域に移動し、ここでは開始するための 3 つのオプション (パイプライン アクティビティの追加データのコピー開始するタスクの選択) が表示されます。

    インジェストを開始するために選択できる 3 つのオプションを示すスクリーンショット。

    これらの各オプションは、次に示すようにパイプラインを作成するためのさまざまな選択肢を提供します。

    • パイプライン アクティビティの追加: このオプションはパイプライン エディターを起動し、そこではパイプライン アクティビティを使用することで新しいパイプラインを最初から作成できます。
    • データのコピー: このオプションでは、データ ソース、コピー先を選択し、列マッピングなどのデータ読み込みオプションを構成するのに役立つ、ステップバイステップのアシスタントが起動されます。 完了すると、データのコピー タスクが既に構成された新しいパイプライン アクティビティが作成されます。
    • 開始するタスクの選択: このオプションでは、さまざまなシナリオに基づいてパイプラインの使用を開始するのに役立つ定義済みのテンプレートのセットが起動されます。

    [データのコピー] オプションを選択して、[コピー アシスタント] を起動します。

  4. [データのコピー] アシスタントの最初のページでは、さまざまなデータ ソースから独自のデータを選択したり、提供されているサンプルのいずれかを選択して作業を開始したりできます。 このチュートリアルでは、COVID-19 データ レイク サンプルを使用します。 このオプションを選択し、[次へ] を選択します。

    サンプル データまたはその他のデータ ソースを使用する選択肢を示すスクリーンショット。

  5. 次のページでは、データセット、ソース ファイル形式を選択し、選択したデータセットをプレビューできます。 Bing COVID-19CSV 形式を選択し、[次へ] を選択します。

    COVID-19 サンプルのさまざまなデータセット オプション、ファイル形式、データのプレビューを表示するグリッドを示すスクリーンショット。

  6. 次のページの [データのコピー先] では、コピー先ワークスペースの種類を構成できます。 ワークスペース内のウェアハウスにデータを読み込むため、[ウェアハウス] タブと [データ ウェアハウス] オプションを選択します。 [次へ] を選択します。

    さまざまなコピー先オプションを示すスクリーンショット。

  7. 次は、データを読み込むウェアハウスを選択します。 ドロップダウン リストで目的のウェアハウスを選択し、[次へ] を選択します。

    ウェアハウスが選択された状態のドロップダウン リストを示すスクリーンショット。

  8. コピー先を構成する最後の手順は、コピー先テーブルに名前を指定し、列マッピングを構成することです。 ここでは、新しいテーブルまたは既存のテーブルにデータを読み込む、スキーマとテーブルの名前を指定する、列名を変更する、列を削除する、またはマッピングを変更することを選択できます。 既定値をそのまま使用することも、設定を自分の好みに合わせて調整することもできます。

    データを既存のテーブルに読み込む、または新しいテーブルを作成するオプションを示すスクリーンショット。

    オプションの確認が完了したら、[次へ] を選択します。

  9. 次のページでは、ステージングを使用するオプションか、データ コピー操作のための高度なオプション (T-SQL COPY コマンドを使用) が提供されます。 オプションを変更せずに確認し、[次へ] を選択します。

  10. アシスタントの最後のページには、コピー アクティビティの概要が表示されます。 [データ転送をすぐに開始] オプションを選択し、[保存と実行] を選択します。

    データ転送をすぐに開始するためのオプションと、[戻る]、[保存と実行] ボタンを示すスクリーンショット。

  11. 新しいデータのコピー アクティビティが既に構成されているパイプライン キャンバス領域に移動します。 パイプラインの実行が自動的に開始されます。 パイプラインの状態は、次のように [出力] ペインで監視できます。

    コピー アクティビティが中心にあるパイプライン キャンバスと、

  12. 数秒後、パイプラインは正常に終了します。 ウェアハウスに戻ると、テーブルを選択してデータをプレビューし、コピー操作が終了したことを確認できます。

    bing_covid_19 テーブルが選択された状態のウェアハウスと、テーブル中のデータのプレビューを表示しているグリッドを示すスクリーンショット。

Microsoft Fabric のウェアハウスへのデータ インジェストの詳細については、以下にアクセスしてください。

次のステップ