モジュール 1: Data Factory を使用してパイプラインを作成する

このモジュールには 10 分かかり、パイプラインの Copy アクティビティを使用して、ソース ストアからデータ Lakehouse の Bronze テーブルに生データが取り込まれます。

モジュール 1 の大まかな手順は次のとおりです。

  1. データ パイプラインを作成する。
  2. パイプラインで Copy アクティビティを使用して、サンプル データをデータ Lakehouse に読み込みます。

データ パイプラインを作成する

  1. アクティブなサブスクリプションを持つ Microsoft Fabric テナント アカウントが必要です。 無料アカウントを作成します

  2. Microsoft Fabric 対応ワークスペースがあることを確認します: ワークスペースの作成

  3. Power BI にサイン インします。

  4. 画面の左下にある既定の Power BI アイコンを選択し、Data Factory エクスペリエンスに切り替えます。

    Screenshot showing the selection of the Data Factory experience.

  5. [データ パイプライン] を選択し、パイプライン名を指定します。 [作成] を選択します。

    Screenshot of the Data Factory start page with the button to create a new data pipeline selected.

    Screenshot showing the dialog to give the new pipeline a name.

パイプラインで Copy アクティビティを使用して、サンプル データをデータ Lakehouse に読み込みます

手順 1: Copy アシスタントを使用してコピー アクティビティを構成します。

[データのコピー] を選択して、コピー アシスタント ツールを開きます。

Screenshot showing the selection of the Copy data activity from the new pipeline start page.

手順 2: コピー アシスタントで設定を構成します。

  1. [データのコピー] ダイアログが表示され、最初の手順である [データ ソースの選択] が強調表示されています。 必要に応じて [データ ソース] セクションまで下にスクロールし、Azure Blob Storage データ ソースの種類を選択します。 [次へ] を選択します。

    Screenshot showing the selection of the Azure Blob Storage data source type in the copy assistant on the Choose data source tab.

  2. 次の手順では、[新しい接続の作成] を選択し、このチュートリアルで提供されるサンプル データをホストする BLOB ストレージの URL (https://nyctaxisample.blob.core.windows.net/sample) を指定します。 認証の種類は Anonymous です。 URL を入力したら、[次へ] を選択します。

    Screenshot showing the creation of a new Azure Blob Storage connection with the URL for the sample data in the tutorial.

  3. [データ ソースに接続] ステップが表示され、最初は、BLOB ストレージ内の sample フォルダーにのみアクセス許可が付与されているため、「ファイルを一覧表示できません」というエラーが表示されます。 フォルダー名、「sample」を指定し、[再試行] を選択します。

    Screenshot showing the Unable to list files error with the folder name Sample provided.

    Note

    BLOB ストレージ フォルダーでは大文字と小文字が区別されるため、すべて小文字にする必要があります。

  4. 次に、BLOB ストレージ ブラウザーが表示されます。 NYC-Taxi-Green-2015-01.parquet ファイルを選択し、データ プレビューが表示されるまで待ちます。 [次へ] を選択します。

    Screenshot showing the preview data for the NYC-Taxi-Green-2015-01.parquet file.

  5. コピー アシスタントの [データの宛先の選択] ステップで、[Lakehouse] を選択し、[次へ] を選択します。

    Screenshot showing the selection of the Lakehouse destination on the Choose data destination tab of the Copy data assistant.

  6. 表示されるデータ宛先構成ページで [新しい Lakehouse の作成] を選択し、新しい Lakehouse の名前を入力します。 次に、もう一度 [次へ] を選択します。

    Screenshot showing the data destination configuration page of the Copy assistant, choosing the Create new Lakehouse option and providing a Lakehouse name.

  7. 次に、[フォルダー パスまたはテーブルの選択とマップ] ページで、Lakehouse の宛先の詳細を構成します。 ルート フォルダー[テーブル] を選択し、テーブル名を指定して、[上書き] アクションを選択します。 [テーブルの上書き] アクションを選択した後に表示される [パーティションを有効にする] チェックボックスをオンにしないでください。

    Screenshot showing the Connect to data destination tab of the Copy data assistant, on the Select and map to folder path or table step.

  8. 最後に、コピー データ アシスタントの [確認と保存] ページで、構成を確認します。 このチュートリアルでは、次のステップでアクティビティを手動で実行するため、[すぐにデータ転送を開始する] チェックボックスをオフにします。 [OK] をクリックします。

    Screenshot showing the Copy data assistant on the Review + save page.

手順 3: Copy アクティビティの結果を実行して表示します。

  1. パイプライン エディターで [実行] タブを選択します。 次に、[実行] ボタンを選択し、プロンプトで [保存して実行] を選択して、Copy アクティビティを実行します。

    Screenshot showing the pipeline Run tab with the Run button highlighted.

    Screenshot showing the Save and run dialog with the Save and run button highlighted.

  2. 実行を監視し、パイプライン キャンバスの下にある [出力] タブで結果を確認できます。 実行の詳細ボタン (実行中のパイプライン実行の上にマウスを置くと表示される "メガネ" アイコン) を選択して、実行の詳細を表示します。

    Screenshot showing the run details button in the pipeline Output tab.

  3. 実行の詳細には、1,508,501 行の読み取りと書き込みが表示されます。

    Screenshot of the Copy data details for the pipeline run.

  4. [期間の内訳] セクションを展開すると、Copy アクティビティの各段階の期間が表示されます。 コピーの詳細を確認した後、[閉じる] を選択します。

    Screenshot showing the duration breakdown of the Copy activity run.

Microsoft Fabric の Data Factory を使用した最初のデータ統合に関するエンドツーエンドのチュートリアルのこの最初のモジュールでは、次の方法を学習しました。

  • データ パイプラインを作成する。
  • パイプラインに Copy アクティビティを追加します。
  • サンプル データを使用してデータ Lakehouse を作成し、データを新しいテーブルに保存します。
  • パイプラインを実行し、その詳細と期間の内訳を表示します。

次のセクションに進み、データフローを作成します。