レイクハウスチュートリアル: レイクハウスの作成、サンプル データの取り込み、レポートの作成
このチュートリアルでは、Lakehouse を構築し、サンプル データをデルタ テーブルに取り込み、必要に応じて変換を適用してから、レポートを作成します。
前提条件
- Lakehouse を作成する前に、Fabric ワークスペースを作成する必要があります。
- CSV ファイルを取り込む前に、OneDrive を構成しておく必要があります。 OneDrive が構成されていない場合は、Microsoft 365 無料試用版にサインアップします: 無料試用版 - Microsoft 365 を 1 か月間試します。
レイクハウスを作成する
Power BI で、左側のメニューから [ワークスペース] を選択します。
ワークスペースを開くには、上部にある [検索テキスト ボックス] にその名前を入力し、検索結果から選択します。
左下にあるスイッチャーで、"Data Engineering" を選択します。
[データ エンジニア] タブで、[Lakehouse] を選択して Lakehouse を作成します。
[新しいレイクハウス] ダイアログ ボックスの [名前] フィールドに「wwilakehouse」 と入力します。
[作成] を 選択して、新しいレイクハウスを作成して開きます。
サンプル データを取り込む
注意
OneDrive が構成されていない場合は、Microsoft 365 無料試用版にサインアップします: 無料試用版 - Microsoft 365 を 1 か月間試します。
Fabric サンプル リポジトリから dimension_customer.csv ファイルをダウンロードします。
[ホーム] タブの [Lakehouse のデータを取得する] に、Lakehouse にデータを読み込むオプションが表示されます。 [新しいデータフロー Gen2] を選択します。
[新しいデータフロー] 画面で、[テキスト/CSV ファイルからインポート] を選択します。
[データ ソースに接続] 画面で、[ファイルのアップロード] ラジオ ボタンを選択します。 手順 1 でダウンロードした dimension_customer.csv ファイルをドラッグ アンド ドロップします。 ファイルがアップロードされたら、[次へ] を選択します。
[ファイル データのプレビュー] ページでデータをプレビューし、[作成] を選択して続行し、データフロー キャンバスに戻ります。
[クエリ設定] ウィンドウで、[名前] フィールドを dimension_customer に更新します。
注意
Fabric では、既定でテーブル名の末尾にスペースと番号が追加されます。 テーブル名は小文字にする必要があり、スペースを含めることはできません。 適切に名前を変更し、テーブルにスペースがあれば削除してください。
このチュートリアルでは、顧客データを Lakehouse に関連付けました。 Lakehouse に関連付ける他のデータアイテムがある場合は、次の手順で追加できます。
メニュー項目から [データ変換先の追加] を選択し、[レイクハウス] を選択します。 [データ宛先に接続] 画面で、必要に応じてアカウントにサインインし、[次へ] を選択します。
ワークスペース内の wwilakehouse に移動します。
dimension_customer テーブルが存在しない場合は、[新しいテーブル] 設定を選択し、テーブル名「dimension_customer」を入力します。 テーブルが既に存在する場合は、[既存のテーブル] 設定を選択し、オブジェクト エクスプローラーのテーブル一覧から dimension_customer を選択します。 [次へ] を選択します。
[保存先の設定の選択] ウィンドウで、[更新方法] として [置換] を選択します。 [設定の保存] を選択して、データフロー キャンバスに戻ります。
データフロー キャンバスから、ビジネス要件に基づいてデータを簡単に変換できます。 わかりやすくするために、このチュートリアルでは何も変更しません。 続行するには、画面の右下にある [発行] を選択します。
データフローの名前の横にある回転する円は、アイテム ビューで発行が進行中であることを示します。 発行が完了したら、[...] を選択し、[プロパティ] を選択します。 データフローの名前を Load Lakehouse Table に変更し、[保存] を選択します。
データ フロー名の横にある [今すぐ更新] オプションを選択して、データフローを更新します。 このオプションはデータフローを実行し、ソース ファイルから Lakehouse テーブルにデータを移動します。 進行中は、アイテム ビューの [更新済み] 列の下に回転する円が表示されます。
データフローが更新されたら、左側のナビゲーション バーで新しい Lakehouse を選択して、dimension_customer デルタ テーブルを表示します。
テーブルを選択してデータをプレビューします。 SQL ステートメントでデータに対してクエリを実行するために、レイクハウスの SQL 分析エンドポイントを使用することもできます。 画面の右上にある [レイクハウス] ドロップダウン メニューから [SQL 分析エンドポイント] を選択します。
dimension_customer テーブルを選択してそのデータをプレビューするか、[新しい SQL クエリ] を選択して SQL ステートメントを記述します。
次のサンプル クエリは、dimension_customer テーブルの BuyingGroup 列に基づいて行数を集計します。 SQL クエリ ファイルは将来参照するために自動的に保存され、必要に応じてこれらのファイルの名前を変更または削除できます。
スクリプトを実行するには、スクリプト ファイルの上部にある [実行] アイコンを選択します。
SELECT BuyingGroup, Count(*) AS Total FROM dimension_customer GROUP BY BuyingGroup
レポートを作成する
以前は、レイクハウスのすべてのテーブルとビューが、セマンティック モデルに自動的に追加されていました。 最近の更新では、新しい Lakehouse の場合、セマンティック モデルにテーブルを手動で追加する必要があります。 レイクハウスを開き、SQL 分析エンドポイント ビューに切り替えます。 [レポート] タブで、[既定のセマンティック モデルの管理] を選択し、セマンティック モデルに追加するテーブルを選択します。 この場合は、dimension_customer テーブルを選択します。
セマンティック モデルのテーブルが常に同期されるようにするには、[SQL 分析エンドポイント] ビューに切り替えて、レイクハウスの[設定] ウィンドウを開きます。 [既定の Power BI セマンティック モデル] を選択し、[既定の Power BI セマンティック モデルの同期] をオンにします。 詳細については、「既定の Power BI セマンティック モデル」を参照してください。
テーブルが追加されると、Fabric により、Lakehouse と同じ名前のセマンティック モデルが作成されます。
セマンティック モデル ペインから、すべてのテーブルを表示できます。 最初からレポートを作成したり、ページ分割されたレポートを作成したり、データに基づいて Power BI でレポートを自動的に作成したりすることもできます。 このチュートリアルでは、[このデータを探索] の下で、[レポートの自動作成] を選択します。 次のチュートリアルでは、最初からレポートを作成します。
テーブルはディメンションであり、メジャーを持たないため、Power BI により行数のメジャーが作成され、別々の列にわたって集計が行われ、次の画像に示すように別々のチャートが作成されます。 このレポートは、上部のリボンから [保存] を選択することで、今後のために保存できます。 他のテーブルまたは列を含めたり除外したりすることで、要件を満たすためにこのレポートにさらに変更を加えることができます。