チュートリアル: Apache Spark でノートブックを使用して KQL データベースにクエリを実行する
ノートブックは、データ分析の説明と結果を含む読み取り可能なドキュメントであり、データ分析を行うために実行できる実行可能なドキュメントでもあります。 この記事では、Microsoft Fabric ノートブックを使用して、Apache Spark を使用して KQL データベースにデータを読み書きする方法について説明します。 このチュートリアルでは、Microsoft Fabric のリアルタイムインテリジェンスと Data Engineering 環境の両方で、事前に作成されたデータセットとノートブックを使用します。 ノートブックの詳細については、「Microsoft Fabric ノートブックの使用方法」を参照してください。
具体的には、次の操作を行う方法を学習します。
- KQL データベースを作成する
- ノートブックをインポートする
- Apache Spark を使用して KQL データベースにデータを書き込む
- KQL データベースからデータにクエリを実行する
前提条件
1 - KQL データベースを作成する
ナビゲーション ウィンドウの下部にあるエクスペリエンス スイッチャーを開き、[リアルタイムインテリジェンス] を選択します。
[KQL データベース] タイルを選択します。
[KQL データベース名] フィールドに「nycGreenTaxi」と入力し、[作成] を選択します。
KQL データベースは、選択したワークスペースのコンテキスト内に作成されます。
データベース ダッシュボードのデータベース詳細カードからクエリ URI をコピーし、メモ帳などの場所に貼り付けて、後の手順で使用します。
2 - NYC GreenTaxi ノートブックをダウンロードする
Spark コネクタを使用してデータベースにデータを読み込むために必要なすべての手順を説明するサンプル ノートブックを作成しました。
GitHub で Fabric サンプル リポジトリを開いて、NYC GreenTaxi KQL ノートブックをダウンロードします。
ノートブックをデバイスにローカルに保存します。
Note
ノートブックは
.ipynb
ファイル形式で保存する必要があります。
3 - ノートブックをインポートする
このワークフローの残りの部分は製品の Data Engineering セクションで行われ、Spark ノートブックを使用して KQL データベースにデータを読み込んでクエリを実行します。
ナビゲーション ペインの下部にあるエクスペリエンス スイッチャーを開き、[開発] を選択してから、ワークスペースを選択します。
[インポート]>[ノートブック]>[このコンピューターから]>[アップロード] を選択し、前の手順でダウンロードした NYC GreenTaxi ノートブックを選択します。
インポートが完了したら、ワークスペースからノートブックを開きます。
4 - データの取得
Spark コネクタを使用してデータベースにクエリを実行するには、NYC GreenTaxi BLOB コンテナーへの読み取りおよび書き込みアクセス権を付与する必要があります。
[再生] ボタンを選択して次のセルを実行するか、セルを選択して Shift+ Enter を押します。 コード セルごとにこの手順を繰り返します。
Note
完了チェック マークが表示されるまで待ってから、次のセルを実行します。
次のセルを実行して、NYC GreenTaxi BLOB コンテナーへのアクセスを有効にします。
KustoURI に、プレースホルダー テキストの代わりに、前にコピーしたクエリ URI を貼り付けます。
プレースホルダー データベース名を nycGreenTaxi に変更します。
プレースホルダー テーブル名を GreenTaxiData に変更します。
セルを実行します。
次のセルを実行して、データベースにデータを書き込みます。 この手順が完了するまでに数分かかる場合があります。
これで、データベースに GreenTaxiData という名前のテーブルにデータが読み込まれました。
5 - ノートブックを実行する
残りの 2 つのセルを順番に実行して、テーブルのデータに対してクエリを実行します。 結果には、年ごとに記録された最高および最低のタクシー料金と距離の上位 20 件が表示されます。
6 - リソースをクリーンアップする
作成されたアイテムをクリーンアップするには、アイテムが作成されたワークスペースに移動します。