教學課程:搭配 Apache Spark 使用筆記本來查詢 KQL 資料庫

筆記本都是可讀取的檔,其中包含資料分析描述和結果,以及可執行執行資料分析的可執行檔。 在本文中,您將瞭解如何使用 Microsoft Fabric 筆記本,使用 Apache Spark 將資料讀取和寫入 KQL 資料庫。 本教學課程會在即時智慧和 Microsoft Fabric 中的 資料工程師 環境中使用預先建立的資料集和筆記本。 如需筆記本的更多資訊,請參閱如何使用 Microsoft Fabric 筆記本

具體而言,您將了解如何:

  • 建立 KQL 資料庫
  • 匯入筆記本
  • 使用 Apache Spark 將資料寫入 KQL 資料庫
  • 從 KQL 資料庫查詢資料

必要條件

1- 建立 KQL 資料庫

  1. 開啟瀏覽窗格底部的體驗切換器,然後選取 [即時智慧]。

  2. 選取 KQL 資料庫動態磚。

    即時智慧中新 KQL 資料庫圖格的螢幕擷取畫面。

  3. 在 [ KQL 資料庫名稱] 字段中,輸入 nycGreenTaxi,然後選取 [ 建立]。

    KQL 資料庫現在已在選取工作區的內容中建立。

  4. 資料庫儀表板中的資料庫詳細資料卡片複製 [查詢 URI],並將它貼到某處,例如記事本,以在稍後的步驟中使用。

     資料庫詳細資料卡片的螢幕擷取畫面,顯示資料庫的詳細資料。標題為 [複製 URI] 的 [查詢 URI] 選項會反白顯示。

2- 下載 NYC GreenTaxi 筆記本

我們已建立範例筆記本,以帶您完成使用 Spark 連接器將資料載入資料庫中需要的所有步驟。

  1. 在 GitHub 上開啟 Fabric 範例存放庫,以下載 NYC GreenTaxi KQL 筆記本

    顯示 NYC GreenTaxi notebook 的 GitHub 存放庫螢幕擷取畫面。已將「原始」選項反白顯示。

  2. 將筆記本儲存在本機到您的裝置。

    注意

    筆記本必須以 .ipynb 檔格式儲存。

3- 匯入該筆記本

此工作流程的其餘部分會在產品的 資料工程師 區段中發生,並使用Spark筆記本在 KQL 資料庫中載入和查詢資料。

  1. 開啟瀏覽窗格底部的體驗切換器,然後選取 [資料工程師 ing]。

  2. 選取 [ 匯入筆記本]。

    資料工程師 中項目選項的螢幕擷取畫面。標題為 [匯入筆記本] 的項目會反白顯示。

  3. 在 [ 匯入狀態] 視窗中,選取 [ 上傳]。

    螢幕擷取畫面顯示匯入狀態視窗。標題為 [上傳] 的醒目提示按鈕。

  4. 選取您在上一個步驟中下載的 NYC GreenTaxi 筆記本。

  5. 匯入完成後,返回工作區以開啟此筆記本。

4- 取得資料

若要使用 Spark 連接器查詢資料庫,您必須提供 NYC GreenTaxi Blob 容器的讀取和寫入權限。

選取播放按鈕以執行下列單元格,或選取單元格,然後按 Shift+ Enter。 針對每個程式碼資料格重複此步驟。

注意

等候完成複選標記出現,再執行下一個單元格。

  1. 執行下列資料格,以啟用NYC GreenTaxi Blob容器的存取權。

    第一個程式碼儲存格的螢幕擷取畫面,其中顯示儲存體存取資訊。

  2. KustoURI 中,貼上稍早複製的查詢 URI,而不是佔位元文字。

  3. 將佔位元資料庫名稱變更為 nycGreenTaxi

  4. 將佔位元資料表名稱變更為 GreenTaxiData

    第二個程式碼資料格的螢幕擷取畫面,其中顯示目標資料庫資訊。查詢 URI、資料庫名稱和資料表名稱會反白顯示。

  5. 執行資料格。

  6. 執行下一個資料格,將資料寫入資料庫。 完成此步驟可能會需要數分鐘的時間。

    第三個程式碼單元格的螢幕擷取畫面,其中顯示資料表對應和擷取命令。

您的資料庫現在已將資料載入名為 GreenTaxiData 的資料表中。

5- 執行該筆記本

循序執行其餘兩個資料格,以查詢資料表中的資料。 結果顯示按年記錄的前 20 名最高和最低計程車車資和距離。

第四個和第五個程式碼儲存格的螢幕擷取畫面,其中顯示查詢結果。

6- 清理資源

導覽至建立工作區的位置,清理所建立的項目。

  1. 在工作區中,將滑鼠停留在您想要刪除的筆記本上,選取 [ 更多] 功能表 [...] >刪除

    工作區的螢幕擷取畫面,其中顯示NYC GreenTaxi筆記本的下拉功能表。標題為 [刪除] 的選項會反白顯示。

  2. 選取 [刪除]。 一旦刪除筆記本,就無法復原筆記本。