自訂具名實體辨識定義和字詞

使用此文章了解使用自訂 NER 時可能遇到的一些定義和詞彙。

實體

實體是一段文字,表示特定類型的資訊。 文字範圍可以包含一或多個字組。 在自訂 NER 的範圍中,實體代表使用者想要從文字中擷取的資訊。 開發人員會先使用所需的實體標記其資料內的實體,再將其傳遞至模型以進行定型。 例如 "Invoice number"、"Start date"、"Shipment number"、"Birthplace"、"Origin city"、"Supplier name" 或 "Client address"。

例如,在「John 向 Fred 借了 25,000 美元」這個句子中,實體可能是:

實體名稱/類型 實體
借款人姓名 John
貸款人姓名 Fred
貸款金額 25,000 美元

F1 分數

F1 分數是精確度和重新叫用率的函數。 當您尋求精確度召回率的平衡時,需要此項目。

模型

模型是經過定型可進行特定工作的物件,在此案例中為自訂實體辨識。 模型的定型方式是提供用來學習的標記資料,以便稍後用於辨識工作。

  • 模型定型是根據您所標示資料來教導您的模型要擷取什麼內容的程序。
  • 模型評估是在定型之後立即進行的程序,可了解您模型執行的效果。
  • 「部署」是將模型指派給部署以透過預測 API 使用該模型的程序。

精確度

測量模型的精確/正確程度。 這是正確識別到的肯定 (確判為真) 與所有識別到的肯定之間的比率。 精確度計量會顯示已正確標示的預測類別數目。

Project

專案是一個工作區域,用於根據您的資料建置自訂 ML 模型。 專案只能由您和其他具有所使用 Azure 資源存取權的人員存取。 當您建立新專案時,您必須將資源連接至包含您資料集的儲存體帳戶,作為建立自訂實體擷取專案的先決條件。 您的專案會自動包含容器中可用的所有 .txt 檔案。

在您的專案內,您可以執行下列動作:

  • 標示資料:此程序會標示資料,以在定型模型時學習您想要擷取的內容。
  • 建置和定型模型:專案的核心步驟,您的模型會從您所標示的資料開始學習。
  • 檢視模型評估詳細資料:檢閱您的模型效能,以確定是否有改進空間,或者您對結果是否感到滿意。
  • 部署:在您檢閱模型的效能並決定其可用於環境之後,需要將其指派給部署,以進行使用。 將模型指派給部署時,可透過預測 API 使用該模型。
  • 測試模型:部署模型之後,請在 Language Studio 中測試您的部署,以查看此部署在生產環境中執行的方式。

重新叫用

測量模型預測實際肯定類別的能力。 這是所預測確判為真與實際標記項目之間的比率。 召回率計量會顯示有多少預測類別是正確的。

下一步