快速入門:在 Azure 入口網站中建立知識存放區

本快速入門將說明如何建立知識存放區,可用於存放 Azure AI 搜尋服務中 AI 擴充管線所產生的輸出。 透過知識存放區,即可在 Azure 儲存體內提供所產生的內容,供搜尋以外的工作負載使用。

首先,您要在 Azure 儲存體內建立一些範例資料。 接著執行匯入資料精靈,建立也會產生知識存放區的擴充管線。 此知識存放區包含從資料來源提取的原始來源內容 (飯店的顧客評論),加上 AI 產生的內容 (包括情感標籤、關鍵片語擷取及非英文客戶評論的翻譯文字)。

必要條件

開始之前,必須先具備下列必要條件:

此快速入門也會使用 Azure AI 服務以進行 AI 擴充。 由於工作負載很小,因此 Azure AI 服務會在幕後連線以進行免費處理,最多 20 筆交易。 這表示您可以完成此練習,而不必額外建立 Azure AI 多服務資源。

啟動精靈

  1. 使用您的 Azure 帳戶登入 Azure 入口網站

  2. 尋找您的搜尋服務,然後在 [概觀] 頁面上,選取命令列上的 [匯入資料],以四個步驟建立知識存放區。

    匯入資料命令的螢幕擷取畫面

步驟 1:建立資料來源

由於資料有多列,且都在一個 CSV 檔案中,因此請設定剖析模式,以取得每一列的一份搜尋文件。

  1. 在 [連線到您的資料] 中,選擇 [Azure Blob 儲存體]

  2. 在 [名稱] 輸入 "hotel-reviews-ds"。

  3. 在 [要擷取的資料] 中,選擇 [內容和中繼資料]

  4. 針對 [剖析模式],選取 [分隔的文字],然後選取 [第一行包含標頭] 核取方塊。 請確定 [分隔符號字元] 是逗號 (,)。

  5. 若儲存體帳戶和訂用帳戶是相同的,請在 [連接字串] 中,選擇一個現有連線。 否則,將連接字串貼上到 Azure 儲存體帳戶。

    連接字串可具備完整存取權,格式如下:DefaultEndpointsProtocol=https;AccountName=<YOUR-ACCOUNT-NAME>;AccountKey=<YOUR-ACCOUNT-KEY>;EndpointSuffix=core.windows.net

    或者,連接字串可參考受控識別,前提是已在 Azure 儲存體內設定並指派角色ResourceId=/subscriptions/<YOUR-SUBSCRIPTION-ID>/resourceGroups/<YOUR-RESOURCE-GROUP-NAME>/providers/Microsoft.Storage/storageAccounts/<YOUR-ACCOUNT-NAME>;

  6. 在 [容器] 中,輸入保存資料的 Blob 容器名稱 ("hotel-reviews")。

    您的頁面應該會看起來如下列螢幕擷取畫面所示。

    資料來源定義的螢幕擷取畫面

  7. 繼續進行下一頁。

步驟 2:新增技能

精靈此步驟會為 AI 擴充新增技能。 來源資料是由英文和法文的客戶評論所組成。 與此資料集相關的技能包括關鍵片語擷取、情感偵測和文字翻譯。 在後續步驟中,這些擴充將「投射」到知識存放區中作為 Azure 資料表。

  1. 展開 [連結 Azure AI 服務]。 預設會選取 [免費 (有限的擴充)]。 您可以使用此資源,因為 HotelReviews-Free.csv 中的記錄筆數是 19,而此免費資源一天最多允許 20 筆交易。

  2. 展開 [新增擴充]

  3. 在 [技能集名稱] 中,輸入 "hotel-reviews-ss"。

  4. 針對 [來源資料欄位],選取 reviews_text

  5. 針對 [擴充細微性層級],選取 [頁面 (5000 個字元區塊)]

  6. 針對 [文字認知技能],選取下列技能:

    • 擷取關鍵片語
    • 翻譯文字
    • 語言偵測
    • 偵測情感

    您的頁面應該會看起來如下列螢幕擷取畫面:

    技能定義的螢幕擷取畫面

  7. 向下捲動並展開 [將擴充儲存到知識存放區]

  8. 選取 [選擇現有連線],然後選取 Azure 儲存體帳戶。 此時會出現容器頁面,在此即可建立投影容器。 為了區分來源內容和知識存放區內容,建議採用前置命名慣例,例如 "kstore-hotel-reviews"。

  9. 返回匯入資料精靈,選取下列 [Azure 資料表投影]。 精靈一律會提供 [文件] 投影。 其他投影是否提供則取決於您選取的技能 (例如 [關鍵片語]) 或擴充細微性 ([頁面]):

    • 文件
    • 頁面
    • 關鍵片語

    下列螢幕擷取畫面顯示精靈中選擇要投影的資料表。

    知識存放區定義的螢幕擷取畫面

  10. 繼續進行下一頁。

步驟 3︰設定索引

在此精靈步驟中,請設定用於選擇性全文檢索搜尋查詢的索引。 知識存放區不需要搜尋索引,但索引子需要索引才能執行。

在此步驟中,精靈會取樣您的資料來源,以推斷欄位和資料類型。 您只需要選取所需行為的屬性。 例如,[可擷取] 屬性會允許搜尋服務傳回欄位值,而 [可搜尋] 屬性會啟用欄位的全文檢索搜尋。

  1. 在 [索引名稱] 中,輸入 "hotel-reviews-idx"。

  2. 針對屬性,請接受所有預設選項:[可擷取] 和 [可搜尋] 適用於管線所建立的新欄位。

    您的索引應該會看起來如下圖。 因為此清單很長,所以並非所有欄位都會顯示在影像中。

    [索引] 定義的螢幕擷取畫面

  3. 繼續進行下一頁。

步驟 4:設定及執行索引子

在此步驟中,請設定索引子,以便將資料來源、技能集,以及您在先前的精靈步驟中定義的索引整合在一起。

  1. 針對 [名稱],輸入 "hotel-reviews-idxr"。

  2. 針對 [排程],保留預設值 [一次]

  3. 選取 [提交] 以執行索引子。 資料擷取、編製索引、認知技能的應用全都在此步驟進行。

步驟 5:健康情況檢查狀態

在 [概觀] 頁面,開啟頁面中間的 [索引子] 分頁,然後選取 [hotels-reviews-idxr]。 在一或兩分鐘內,狀態應會從 [進行中] 變為 [成功],並且出現零個錯誤和警告。

檢查 Azure 入口網站中的資料表

  1. 在 Azure 入口網站中,開啟用來建立知識存放區的儲存體帳戶

  2. 在儲存體帳戶左側的瀏覽窗格中,選取 [儲存體瀏覽器],以檢視新的資料表。

    在此應出現三個資料表,[新增擴充] 頁面 [儲存擴充] 區塊提供的每個投影都有一個。

    • "hotelReviewssDocuments" 包含文件內擴充樹狀結構非集合物件的第一層節點。

    • "hotelReviewssKeyPhrases" 包含所有評論擷取的一長串關鍵片語清單。 輸出集合 (陣列,如關鍵片語和實體) 的技能會將輸出傳送至獨立的資料表。

    • "hotelReviewssPages" 包含文件分割成每一頁面所建立的擴充欄位。 在此資料集和資料來源,頁面層級擴充由情感標籤和翻譯文字組成。 若您在技能集定義選擇 [頁面] 細微性,則會建立頁面資料表 (若您指定句子層級的細微性,則為句子資料表)。

這些所有資料表都包含識別碼資料行,以利突顯資料表在其他工具和應用程式內的關係。 當您開啟資料表時,請捲動這些欄位以檢視由管線新增的內容欄位。

在此快速入門中,"hotelReviewssPages" 資料表應該會看起來如下列螢幕擷取畫面:

螢幕擷取畫面顯示儲存體瀏覽器中產生的資料表

清理

如果您是在自己的訂用帳戶中進行,建議您在專案結束時判斷自己是否仍需要先前所建立的資源。 資源若繼續執行,將需付費。 您可以個別刪除資源,或刪除資源群組以刪除整組資源。

您可以使用左導覽窗格中的 [所有資源] 或 [資源群組] 連結,在入口網站中尋找和管理資源。

如果您使用免費服務,請記住您會有三個索引、索引子和資料來源的限制。 您可以在入口網站中刪除個別項目,以避免超出限制。

提示

如果您想要重複此練習,或逐步嘗試不同的 AI 擴充,請刪除 hotel-reviews-idxr 索引子及其相關物件來加以重建。 刪除索引子會將免費的每日交易計數器重設為零。

下一步

現在您已認識知識存放區,接著請前往 REST API 逐步解說,進一步了解每個步驟。 精靈內部處理的工作將在 REST 逐步解說中說明。

使用 REST 建立知識存放區 (部分機器翻譯)