チュートリアル: Apache Spark でノートブックを使用して KQL データベースにクエリを実行する

ノートブックは、データ分析の説明と結果を含む読み取り可能なドキュメントであり、データ分析を行うために実行できる実行可能なドキュメントでもあります。 この記事では、Microsoft Fabric ノートブックを使用して、Apache Spark を使用して KQL データベースにデータを読み書きする方法について説明します。 このチュートリアルでは、Microsoft Fabric のリアルタイムインテリジェンスと Data Engineering 環境の両方で、事前に作成されたデータセットとノートブックを使用します。 ノートブックの詳細については、「Microsoft Fabric ノートブックの使用方法」を参照してください。

具体的には、次の操作を行う方法を学習します。

  • KQL データベースを作成する
  • ノートブックをインポートする
  • Apache Spark を使用して KQL データベースにデータを書き込む
  • KQL データベースからデータにクエリを実行する

前提条件

1 - KQL データベースを作成する

  1. ナビゲーション ウィンドウの下部にあるエクスペリエンス スイッチャーを開き、[リアルタイムインテリジェンス] を選択します。

  2. [KQL データベース] タイルを選択します。

    リアルタイムインテリジェンスの新しい KQL データベース タイルのスクリーンショット。

  3. [KQL データベース名] フィールドに「nycGreenTaxi」と入力し、[作成] を選択します。

    KQL データベースは、選択したワークスペースのコンテキスト内に作成されます。

  4. データベース ダッシュボードのデータベース詳細カードからクエリ URI をコピーし、メモ帳などの場所に貼り付けて、後の手順で使用します。

     データベースの詳細が表示されている [データベースの詳細] カードのスクリーンショット。[URI のコピー] という名前の [クエリ URI] のオプションが強調表示されています。

2 - NYC GreenTaxi ノートブックをダウンロードする

Spark コネクタを使用してデータベースにデータを読み込むために必要なすべての手順を説明するサンプル ノートブックを作成しました。

  1. GitHub で Fabric サンプル リポジトリを開いて、NYC GreenTaxi KQL ノートブックをダウンロードします。

    NYC GreenTaxi ノートブックを示す GitHub リポジトリのスクリーンショット。 [RAW] オプションが強調表示されます。

  2. ノートブックをデバイスにローカルに保存します。

    Note

    ノートブックは .ipynb ファイル形式で保存する必要があります。

3 - ノートブックをインポートする

このワークフローの残りの部分は製品の Data Engineering セクションで行われ、Spark ノートブックを使用して KQL データベースにデータを読み込んでクエリを実行します。

  1. ナビゲーション ペインの下部にあるエクスペリエンス スイッチャーを開き、[開発] を選択してから、ワークスペースを選択します。

  2. [インポート]>[ノートブック]>[このコンピューターから]>[アップロード] を選択し、前の手順でダウンロードした NYC GreenTaxi ノートブックを選択します。

    インポートの状態ウィンドウのスクリーンショット。 「アップロード」というタイトルのボタンが強調表示されます。

  3. インポートが完了したら、ワークスペースからノートブックを開きます。

4 - データの取得

Spark コネクタを使用してデータベースにクエリを実行するには、NYC GreenTaxi BLOB コンテナーへの読み取りおよび書き込みアクセス権を付与する必要があります。

[再生] ボタンを選択して次のセルを実行するか、セルを選択して Shift+ Enter を押します。 コード セルごとにこの手順を繰り返します。

Note

完了チェック マークが表示されるまで待ってから、次のセルを実行します。

  1. 次のセルを実行して、NYC GreenTaxi BLOB コンテナーへのアクセスを有効にします。

    ストレージ アクセス情報を示す最初のコード セルのスクリーンショット。

  2. KustoURI に、プレースホルダー テキストの代わりに、前にコピーしたクエリ URI を貼り付けます。

  3. プレースホルダー データベース名を nycGreenTaxi に変更します。

  4. プレースホルダー テーブル名を GreenTaxiData に変更します。

    ターゲット データベース情報を示す 2 番目のコード セルのスクリーンショット。 クエリ URI、データベース名、テーブル名が強調表示されます。

  5. セルを実行します。

  6. 次のセルを実行して、データベースにデータを書き込みます。 この手順が完了するまでに数分かかる場合があります。

    テーブル マッピングとインジェスト コマンドを示す 3 番目のコード セルのスクリーンショット。

これで、データベースに GreenTaxiData という名前のテーブルにデータが読み込まれました。

5 - ノートブックを実行する

残りの 2 つのセルを順番に実行して、テーブルのデータに対してクエリを実行します。 結果には、年ごとに記録された最高および最低のタクシー料金と距離の上位 20 件が表示されます。

クエリ結果を示す 4 番目と 5 番目のコード セルのスクリーンショット。

6 - リソースをクリーンアップする

作成されたアイテムをクリーンアップするには、アイテムが作成されたワークスペースに移動します。

  1. ワークスペースで、削除するノートブックの上にマウスを置き、[その他] メニュー [...]>[削除] を選択します。

    NYC GreenTaxi ノートブックのドロップダウン メニューを表示するワークスペースのスクリーンショット。 「削除」というタイトルのオプションが強調表示されます。

  2. [削除] を選択します。 ノートブックを削除すると、回復することはできません。