レイクハウスのチュートリアル: レイクハウスにデータを取り込む

このチュートリアルでは、Wide World Importers (WWI) からレイクハウスに追加のディメンション テーブルと ファクト テーブル を取り込みます。

前提条件

データを取り込む

このセクションでは、Data Factory パイプラインの [データのコピー] アクティビティ を使用して、Azure ストレージ アカウントから以前に作成したレイクハウスの [ファイル] セクションにサンプル データを取り込みます。

  1. 左側のナビゲーション ウィンドウで [ワークスペース] を選択し、[ワークスペース] メニューから新しいワークスペースを選択します。 ワークスペースのアイテム ビューが表示されます。

  2. ワークスペース リボンの [+新規] メニュー項目から、[データ パイプライン] を選択します。

    新しいデータ パイプラインを作成する方法を示すスクリーンショット。

  3. [新しいパイプライン] ダイアログ ボックスで、名前を IngestDataFromSourceToLakehouse として指定し、[作成] を選択します。 新しいデータ ファクトリ パイプラインが作成され、開かれます。

  4. 新しく作成したデータ ファクトリ パイプラインで、[パイプライン アクティビティ] を選択してパイプラインにアクティビティを追加し、[データのコピー] を選択します。 このアクションにより、データのコピー アクティビティがパイプライン キャンバスに追加されます。

    [パイプライン アクティビティ] と [データのコピー] を選択する場所を示すスクリーンショット。

  5. キャンバスから新しく追加されたデータのコピー アクティビティを選択します。 アクティビティ プロパティがキャンバスの下のペインに表示されます (場合によっては、上端をドラッグしてペインを上に展開する必要があります)。 プロパティ ウィンドウの [全般] タブで、[名前] フィールドに Data Copy to Lakehouse と入力します。

    [全般] タブのコピー アクティビティ名を追加する場所を示すスクリーンショット。

  6. 選択したデータのコピー アクティビティの [ソース] タブで、[データ ストアの種類][外部] を選択し、[+ 新規] を選択してデータ ソースへの新しい接続を作成します。

    [ソース] タブで [外部] と [+ 新規] を選択する場所を示すスクリーンショット。

  7. このチュートリアルのため、すべてのサンプル データが Azure Blob Storage のパブリック コンテナーで入手できます。 このコンテナーに接続して、そこからデータをコピーします。 [新しい接続] 画面で、[Azure Blob Storage][続行] の順に選択します。

    新しい接続ウィザードのスクリーンショット。Azure Blob Storage を選択する場所が示されています。

  8. [新しい接続] 画面で、次の詳細を入力し、[作成] を選択してデータ ソースへの接続を作成します。

    プロパティ
    アカウント名または URL https://azuresynapsestorage.blob.core.windows.net/sampledata
    つながり 新しい接続を作成します。
    接続名 wwisampledata
    認証の種類 匿名

    [接続設定] 画面のスクリーンショット。詳細を入力して [作成] を選択する場所が示されています。

  9. 新しい接続が作成され、データのコピー アクティビティの [ソース] タブに戻ると、新しく作成された接続が既定で選択されます。 接続先の設定に移動する前に、次のプロパティを指定します。

    プロパティ
    データ ストアの種類 外部
    接続 wwisampledata
    ファイル パスの種類 ファイル パス
    ファイル パス コンテナー名 (最初のテキスト ボックス): sampledata
    ディレクトリ名 (2 番目のテキスト ボックス): WideWorldImportersDW/parquet
    Recursively オン
    ファイル形式 バイナリ

    特定の詳細を入力する場所を示す [ソース] タブのスクリーンショット。

  10. 選択したデータのコピー アクティビティの [コピー先] タブで、次のプロパティを指定します。

    プロパティ
    データ ストアの種類 ワークスペース
    ワークスペースのデータ ストアの種類 レイクハウス
    レイクハウス wwilakehouse
    ルート フォルダー ファイル
    ファイル パス ディレクトリ名 (最初のテキスト ボックス): wwi-raw-data
    ファイル形式 バイナリ

    特定の詳細を入力する場所を示す [コピー先] タブのスクリーンショット。

  11. データのコピー アクティビティの構成が完了しました。 上部のリボンの [保存] アイコン ([ホーム] の下) を選択して変更を保存し、[実行] を選択してパイプラインとそのアクティビティを実行します。 また、ビジネス要件を満たすために、定義された間隔でデータを更新するようにパイプラインをスケジュールすることもできます。 このチュートリアルでは、[実行] ボタンを選択してパイプラインを 1 回だけ実行します。

    このアクションにより、基になるデータ ソースから指定したレイクハウスへのデータ コピーがトリガーされ、完了するまでに最大で 1 分かかる場合があります。 キャンバス上の任意の場所をクリックすると表示される [出力] タブで、パイプラインとそのアクティビティの実行を監視できます。 必要に応じて、名前をポイントしたときに表示される眼鏡アイコンを選択して、データ転送の詳細を確認できます。

    [保存] と [実行] を選択する場所と、[出力] タブの実行の詳細と眼鏡アイコンの場所を示すスクリーンショット。

  12. データがコピーされたら、ワークスペースのアイテム ビューに移動し、新しい Lakehouse (wwilakehouse) を選択してエクスプローラー ビューを起動します。

    エクスプローラー ビューを起動する Lakehouse を選択する場所を示すスクリーンショット。

  13. [エクスプローラー] ビューに新しいフォルダー wwi-raw-data があり、すべてのテーブルのデータがそこにコピーされることを確認します。

    ソース データがレイクハウス エクスプローラーにコピーされていることを示すスクリーンショット。

増分データを Lakehouse に読み込むには、「データ ウェアハウスから Lakehouse へのデータの増分読み込み」を参照してください。

次のステップ