使用 Azure Data Factory 將資料複製到 Azure 資料總管

重要

此連接器可用於 Microsoft Fabric 中的即時智慧 。 使用本文中的指示,但有下列例外狀況:

Azure 數據總管是快速、完全受控、數據分析服務。 它提供大量數據的即時分析,這些數據會從許多來源串流,例如應用程式、網站和IoT裝置。 透過 Azure 數據總管,您可以反覆探索數據,並識別模式和異常,以改善產品、增強客戶體驗、監視裝置和提升作業。 它可協助您探索新的問題,並在幾分鐘內取得解答。

Azure Data Factory 是完全受控、雲端式、數據整合服務。 您可以使用它,將來自現有系統的數據填入 Azure 數據總管資料庫。 其可協助您在建置分析解決方案時節省時間。

將數據載入 Azure 數據總管時,Data Factory 提供下列優點:

  • 輕鬆設定:取得直覺式的五步驟精靈,不需要編寫腳本。
  • 豐富的數據存放區支援:取得一組豐富的內部部署和雲端式數據存放區內建支援。 如需詳細清單,請參閱支援的資料存放區的資料表。
  • 安全且符合規範:數據會透過 HTTPS 或 Azure ExpressRoute 傳輸。 具有全域服務,可確保資料絕不會離開地理界限。
  • 高效能:數據載入速度高達每秒 1 GB(GBps)到 Azure 數據總管。 如需詳細資訊,請參閱複製活動效能

在本文中,您會使用 Data Factory 複製數據工具將數據從 Amazon Simple Storage Service (S3) 載入 Azure 數據總管。 您可以遵循類似的程式,從其他資料存放區複製資料,例如:

必要條件

建立資料處理站

  1. 登入 Azure 入口網站

  2. 在左窗格中,選取 [建立資源>分析>Data Factory]。

    此螢幕快照顯示在 Azure 入口網站 中建立數據處理站的選項。

  3. 在 [ 新增數據處理站 ] 窗格中,提供下表中欄位的值:

    [新增數據處理站] 窗格

    設定 要輸入的值
    名稱 在方塊中,輸入數據處理站的全域唯一名稱。 如果您收到錯誤, Data Factory 名稱 「LoadADXDemo」 無法使用,請輸入數據處理站的不同名稱。 如需命名 Data Factory 成品的規則,請參閱 Data Factory 命名規則
    訂用帳戶 在下拉式清單中,選取要在其中建立數據處理站的 Azure 訂用帳戶。
    資源群組 選取 [ 新建],然後輸入新資源群組的名稱。 如果您已經有資源群組,請選取 [ 使用現有的]。
    版本 在下拉式清單中,選取 [V2]。
    地點 在下拉式清單中,選取數據處理站的位置。 清單中只會顯示支援的位置。 數據處理站所使用的數據存放區可以存在於其他位置或區域中。
  4. 選取 建立

  5. 若要監視建立程式,請選取工具列上的 [ 通知 ]。 建立數據處理站之後,請選取它。

    [ Data Factory ] 窗格隨即開啟。

    Data Factory 窗格。

  6. 若要在個別窗格中開啟應用程式,請選取 [ 作者與監視] 圖格。

將數據載入 Azure 數據總管

您可以將許多資料類型 的數據存放區 載入 Azure 資料總管。 本文討論如何從 Amazon S3 載入數據。

您可以透過下列其中一種方式載入您的資料:

  • 在 Azure Data Factory 使用者介面的左窗格中,選取 [ 作者] 圖示。 這會顯示在使用 Azure Data Factory UI 建立數據處理站的一節中。
  • 在 Azure Data Factory 複製數據工具中,如使用複製資料工具來複製數據中所示

從 Amazon S3 複製資料(來源)

  1. 在 [ 讓我們開始使用] 窗格中,選取 [複製數據] 來開啟 [複製數據] 工具。

    [複製資料] 工具按鈕。

  2. 在 [屬性] 窗格中的 [工作名稱] 方塊中,輸入名稱,然後選取 [下一步]。

    [複製資料屬性] 窗格。

  3. 在 [ 源數據存放區 ] 窗格中,選取 [ 建立新的連線]。

    [複製數據][源數據存放區] 窗格

  4. 選取 [Amazon S3],然後選取 [ 繼續]。

    [新增鏈接服務] 窗格。

  5. 在 [ 新增鏈接服務 (Amazon S3)] 窗格中,執行下列動作:

    指定 Amazon S3 連結服務。

    a. 在 [ 名稱] 方塊中,輸入新連結服務的名稱。

    b. 在 [ 透過整合運行時間 連線] 下拉式清單中,選取值。

    c. 在 [ 存取金鑰標識元 ] 方塊中,輸入值。

    注意

    在 Amazon S3 中,若要找出您的存取金鑰,請在導覽列上選取您的 Amazon 使用者名稱,然後選取 [我的安全性認證]。

    d. 在 [ 秘密存取金鑰] 方塊 中,輸入值。

    e. 若要測試您所建立的連結服務連線,請選取 [ 測試連線]。

    f. 選取 [完成]。

    [ 源數據存放區] 窗格會顯示新的 AmazonS31 連線。

  6. 選取 [下一步]。

    源數據存放區已建立連線。

  7. 在 [ 選擇輸入檔案或資料夾 ] 窗格中,執行下列步驟:

    a. 流覽至您要複製的檔案或資料夾,然後加以選取。

    b. 選取您想要的複製行為。 請確定已清除 [ 二進制複製] 複選框。

    c. 選取 [下一步]。

    選擇輸入檔案或資料夾。

  8. 在 [ 檔案格式設定 ] 窗格中,選取檔案的相關設定。 然後,選取 [下一步]

    [檔案格式設定] 窗格

將資料複製到 Azure 資料總管(目的地)

系統會建立新的 Azure 數據總管鏈接服務,以將數據複製到本節中指定的 Azure 數據總管目的地數據表(接收)。

建立 Azure 數據總管鏈接服務

若要建立 Azure 數據總管連結服務,請執行下列步驟:

  1. 若要使用現有的數據存放區連線或指定新的資料存放區,請在 [目的地數據存放區 ] 窗格中,選取 [ 建立新連線]。

    目的地數據存放區窗格。

  2. 在 [ 新增鏈接服務 ] 窗格中,選取 [Azure 數據總管],然後選取 [ 繼續]。

    [新增鏈接服務] 窗格。

  3. 在 [ 新增鏈接服務 ][Azure 數據總管] 窗格中,執行下列步驟:

    [Azure 數據總管] [新增鏈接服務] 窗格。

    1. 在 [ 名稱] 方塊中,輸入 Azure 數據總管鏈接服務的名稱。

    2. 在 [驗證方法] 下,選擇 [系統指派的受控識別或服務主體]。

      • 若要使用受控識別進行驗證,請使用受控識別名稱或受控識別物件標識元,將受控識別存取權授與資料庫。

      • 若要使用服務主體進行驗證:

        1. 在 [ 租使用者] 方塊中,輸入租用戶名稱。
        2. 在 [ 服務主體標識符 ] 方塊中,輸入服務主體標識符。
        3. 選取 [服務主體金鑰],然後在 [服務主體金鑰] 方塊中輸入金鑰的值。

      注意

      • Azure Data Factory 會使用服務主體來存取 Azure 數據總管服務。 若要建立服務主體,請移至 建立Microsoft Entra 服務主體
      • 若要將許可權指派給受控識別或服務主體或 ,請參閱 管理許可權
      • 請勿使用 Azure 金鑰保存庫 方法或使用者指派的受控識別。
    3. 在 [ 帳戶選取方法] 下,選擇下列其中一個選項:

      • 選取 [從 Azure 訂用帳戶 ],然後在下拉式清單中選取您的 Azure 訂 用帳戶和 叢集

        注意

        • [ 叢集 ] 下拉式清單只會列出與您的訂用帳戶相關聯的叢集。
        • 您的叢集必須具有適當的 SKU ,才能 獲得最佳效能
      • 選取 [手動輸入],然後輸入您的 端點

    4. 在 [ 資料庫] 下拉式清單中,選取您的資料庫名稱。 或者,選取 [ 編輯] 複選框,然後輸入資料庫名稱。

    5. 若要測試您所建立的連結服務連線,請選取 [ 測試連線]。 如果您可以連線到連結的服務,窗格會顯示綠色複選標記和 連線成功 訊息。

    6. 選取 [建立] 以完成鏈接的服務建立。

設定 Azure 數據總管數據連線

建立連結服務連線之後,[ 目的地數據存放區 ] 窗格隨即開啟,而您建立的連線可供使用。 若要設定連線,請執行下列步驟:

  1. 選取 [下一步]。

    [Azure 數據總管] [目的地數據存放區] 窗格

  2. 在 [ 數據表對應 ] 窗格中,設定目的地數據表名稱,然後選取 [ 下一步]。

    目的地數據集 [數據表對應] 窗格

  3. 在 [ 數據行對應 ] 窗格中,會進行下列對應:

    a. 第一個對應是由 Azure Data Factory 根據 Azure Data Factory 架構對應來執行。 執行下列操作:

    • 設定 Azure Data Factory 目的地數據表的數據行對應。 默認對應會顯示從來源到 Azure Data Factory 目的地數據表。

    • 取消選取您不需要定義資料行對應的數據行。

    b. 第二個對應會在此表格式數據內嵌至 Azure 數據總管時發生。 對應會根據 CSV 對應規則執行。 即使源數據不是 CSV 格式,Azure Data Factory 仍會將數據轉換成表格式格式。 因此,CSV 對應是目前階段唯一相關的對應。 執行下列操作:

    • (選擇性)在 Azure 資料總管 (Kusto) 接收屬性下,新增相關的 擷取對應名稱 ,以便使用數據行對應。

    • 如果未指定擷取對應名稱則會使用 [數據行對應] 區段中定義的依名稱對應順序。 如果 依名稱 對應失敗,Azure 數據總管會嘗試以 依數據行位置 順序內嵌數據(也就是依位置對應為預設值)。

    • 選取 [下一步]。

    目的地數據集 [數據行對應] 窗格

  4. 在 [ 設定] 窗格中,執行下列步驟:

    a. 在 [容錯設定] 底下,輸入相關的設定。

    b. 在 [效能設定] 底下[啟用預備] 不適用,[進階設定] 包含成本考慮。 如果您沒有特定需求,請保留這些設定。

    c. 選取 [下一步]。

    複製資料 [設定] 窗格

  5. 在 [ 摘要] 窗格中檢閱設定,然後選取 [ 下一步]。

    複製資料 [摘要] 窗格

  6. 在 [ 部署完成 ] 窗格中,執行下列動作:

    a. 若要切換至 [ 監視] 索引卷標並檢視管線的狀態(也就是進度、錯誤和數據流),請選取 [ 監視]。

    b. 若要編輯連結的服務、數據集和管線,請選取 [編輯管線]。

    c. 選取 [完成 ] 以完成複製數據工作。

    [部署完成] 窗格