設定文字標記專案和匯出標籤

在 Azure Machine Learning 中,了解如何建立及執行資料標記專案,以便為資料加上標籤。 指定要套用至每個文字項目的單一標籤或多個標籤。

您也可以在 Azure Machine Learning 中使用資料標記工具來建立影像標記專案

文字標記功能

Azure Machine Learning 資料標記是一個工具,可讓您建立、管理及監視資料標籤專案。 可用於:

  • 您可以協調資料、標籤和小組成員,以有效管理標籤工作。
  • 此功能會追蹤進度,並維護未完成的加上標記工作佇列。
  • 啟動和停止專案,並控制標記進度。
  • 檢閱已標籤的資料並匯出為 Azure Machine Learning 資料集。

重要

您在 Azure Machine Learning 資料標記工具中處理的文字資料必須可在 Azure Blob 儲存體資料存放區中使用。 如果您沒有現有的資料存放區,您可以在建立專案時,將資料檔案上傳至新的資料存放區。

以下資料格式可供文字資料使用:

  • .txt:每個檔案都代表一個待標記的項目。
  • .csv.tsv:每個資料列都代表要呈現給標籤人員的一個項目。 您可以決定標籤人員在標記資料列時,可以看到哪些資料行。

必要條件

您可以使用這些項目在 Azure Machine Learning 中設定文字標籤:

  • 您要加上標籤的資料,無論是在本機檔案中還是在 Azure Blob 儲存體中。
  • 您要套用的標籤集合。
  • 加上標籤的指示。
  • Azure 訂用帳戶。 如果您沒有 Azure 訂用帳戶,請在開始前建立免費帳戶
  • Azure Machine Learning 工作區。 請參閱建立 Azure Machine Learning 工作區

建立文字標籤專案

標籤專案可在 Azure Machine Learning 進行管理。 使用 Machine Learning 中的 [資料標記] 頁面來管理您的專案。

如果您的資料已儲存在 Azure Blob 儲存體中,請確定其成為可用的資料存放區,然後才建立標記專案。

  1. 若要建立專案,請選取 [新增專案]

  2. 針對 [專案名稱],輸入專案的名稱。

    即使您刪除專案,也無法重複使用專案名稱。

  3. 若要建立文字標籤專案,針對 [媒體類型],選取 [文字]

  4. 針對 [標籤工作類型],為您的案例選取選項:

    • 若要從一組標籤中僅將單一標籤套用至每段文字,請選取 [文字分類多類別]
    • 若要從一組標籤中將一或多個標籤套用至每段文字,請選取 [文字分類多類別]
    • 若要將標籤套用至個別文字字組或每個項目中的多個文字字組,請選取 [文字具名實體辨識]

    顯示建立用於文字標記之標記專案的螢幕擷取畫面。

  5. 選取下一步以繼續。

新增員工 (選擇性)

只有在您是為來自 Azure Marketplace 的資料標記公司服務時,才應選取 [使用 Azure Marketplace 的廠商標記公司]。 接著選取廠商。 如果您的廠商未出現在清單中,請清除此選項。

請務必先洽詢廠商並簽署合約。 如需詳細資訊,請參閱與資料標記廠商公司合作

選取下一步以繼續。

選取或建立資料集

如果您已建立包含資料的資料集,請從 [選取現有的資料集] 下拉式清單中加以選取。 您也可以選取 [建立資料集] 以使用現有 Azure 資料存放區,或上傳本機檔案。

注意

專案不可包含超過 500,000 個檔案。 如果您的資料集超過此檔案計數,則只會載入前 500,000 個檔案。

從 Azure 資料存放區建立資料集

在許多情況下,您可以上傳本機檔案。 不過,Azure 儲存體總管可提供更快速且更穩健的方式來傳輸大量資料。 建議您使用儲存體總管作為移動檔案的預設方式。

若要從已儲存在 Blob 儲存體中的資料建立資料集:

  1. 選取 建立
  2. 針對 [名稱],輸入資料集的名稱。 或者,輸入描述。
  3. 選擇 [資料集類型]
    • 若您是使用 .csv.tsv 檔案,且每個資料列都包含一個回應,請選取 [表格式]
    • 若您針對每個回應使用個別 .txt 檔案,請選取 [檔案]
  4. 選取 [下一步]。
  5. 選取 [從 Azure 儲存體],然後選取 [下一步]
  6. 選取資料存放區,然後選取 [下一步]
  7. 如果您的資料位於 Blob 儲存體內的子資料夾中,請選擇 [瀏覽] 以選取路徑。
    • 若要包含所選取路徑的子資料夾內的所有檔案,請為路徑附加 /**
    • 若要包含目前容器及其子資料夾內的所有資料,請為路徑附加 **/*.*
  8. 選取 建立
  9. 選取您建立的資料資產。

從上傳的資料建立資料集

若要直接上傳資料:

  1. 選取 建立
  2. 針對 [名稱],輸入資料集的名稱。 或者,輸入描述。
  3. 選擇 [資料集類型]
    • 若您是使用 .csv.tsv 檔案,且每個資料列都包含一個回應,請選取 [表格式]
    • 若您針對每個回應使用個別 .txt 檔案,請選取 [檔案]
  4. 選取 [下一步]。
  5. 選取 [來自本機檔案],然後選取 [下一步]
  6. (選擇性) 選取資料存放區。 預設值會上傳至 Machine Learning 工作區的預設 Blob 存放區 (workspaceblobstore)。
  7. 選取 [下一步]。
  8. 選取 [上傳] > [上傳檔案] 或 [上傳] > [上傳資料夾],以選取要上傳的本機檔案或資料夾。
  9. 在瀏覽器視窗中尋找您的檔案或資料夾,然後選取 [開啟]
  10. 繼續選取 [上傳],直到您指定所有檔案和資料夾為止。
  11. 或者,選取 [如果已存在則覆寫] 核取方塊。 驗證檔案和資料夾的清單。
  12. 選取 [下一步]。
  13. 確認詳細資料。 選取 [上一步] 以修改設定,或選取 [建立] 以建立資料集。
  14. 最後,選取您建立的資料資產。

設定累加式重新整理

若您打算將新的資料檔案新增至您的資料集,請使用累加式重新整理將這些檔案新增至您的專案。

設為 [啟用定期累加式重新整理] 後,將會根據標記完成率,定期檢查資料集有無要新增至專案的新檔案。 當專案包含 500,000 個檔案 (此為上限) 時,將會停止檢查新資料。

當您想要讓專案持續監視資料存放區中的新資料時,請選取 [啟用定期累加式重新整理]

如果您不想將資料存放區中的新檔案自動新增至專案,請清除選項。

重要

啟用累加式重新整理時,請勿為您要更新的資料集建立新版本。 如果建立新版本,資料集上會看不到更新,因為資料標記專案已鎖定為初始版本。 請改用 Azure 儲存體總管,在 Blob 儲存體的適當資料夾中修改資料。

此外,請勿移除資料。 從專案使用的資料集移除資料會導致專案中發生錯誤。

建立專案之後,請使用 [詳細資料] 索引標籤來變更累加式重新整理、檢視上次重新整理的時間戳記,以及要求立即重新整理資料。

注意

使用表格式 (.csv.tsv) 資料集輸入的專案可以使用累加式重新整理。 但是累加式重新整理只會新增表格式檔案。 重新整理無法辨識現有表格式檔案的變更。

指定標籤類別

在 [標籤類別] 頁面上,指定一組類別來對資料進行分類。

標籤人員的正確性和速度會受其類別選擇能力影響。 例如,與其完整拼出動植物的完整屬名和種名,不如使用界碼或屬名的縮寫。

您可以使用單層式列表,或建立標籤群組。

  • 若要建立一般清單,請選取 [新增標籤類別] 建立個別標籤。

    顯示如何新增標籤一般結構的螢幕擷取畫面。

  • 若要在不同的群組中建立標籤,請選取 [新增標籤類別] 建立最上層的標籤。 然後在每個最上層標籤下,選取加號 (+),建立該類別下一層的標籤。 您可以為任何群組建立最多六個層級。

    顯示如何新增標籤群組的螢幕擷取畫面。

在標記程序期間,您可以選取任何層級的標籤。 例如,標籤 AnimalAnimal/CatAnimal/DogColorColor/BlackColor/WhiteColor/Silver 都是可選擇的標籤。 在多標籤專案中,不必為每個類別選擇一個標籤。 如果這是您所希望的,請務必在指示中包含這項資訊。

描述文字標記工作

請務必清楚說明標籤工作。 在標記指示頁面上,您可以為具有標記指示的外部網站新增連結,或在頁面的編輯方塊中提供指示。 請對受眾提供以工作為導向的適當指示。 請考量下列問題:

  • 標記者會看到什麼標籤,以及要如何從中選擇? 是否有參考文字可供參考?
  • 如果看起來沒有合適的標籤,該怎麼辦?
  • 如果有多個看起來合適的標籤,該怎麼辦?
  • 應該對標籤套用怎樣的信賴度臨界值? 是否要標記者在不確定時盡其所能地猜測?
  • 若關注的物體有局部遮蔽或重疊的情形,該怎麼辦?
  • 若關注的物體在影像邊緣遭到裁剪,該怎麼辦?
  • 如果他們在提交標籤後發現作業有誤,該怎麼辦?
  • 如果發現影像品質有問題,包括光線不佳、反射、失焦、出現不該有的背景、相機角度異常等等,該怎麼辦?
  • 如果多個檢閱者對套用標籤有不同的意見,該怎麼辦?

注意

標記者可以點選數字鍵 1 到 9 來選取前九個標籤。

品質控制 (預覽)

若需要更精確的標籤,請在品質控制 頁面中,將每個項目傳送給多個標記者。

重要

共識標記目前處於公開預覽狀態。

此預覽版本會在沒有服務等級協定的情況下提供,不建議用於實際執行工作負載。 可能不支援特定功能,或可能已經限制功能。

如需詳細資訊,請參閱 Microsoft Azure 預覽版增補使用條款

若要讓每個項目傳送給多個標記者,請選取 [啟用共識標籤 (預覽)]。 然後設定 [最小標記者] 和 [最大標記者] 的值,以指定要使用的標記者數目。 請確定您具有符合最大數目的標記者。 您無法在啟動專案後變更這些設定。

如果達到最小標記者數目的共識,則會標記項目。 如果未達成共識,則會將項目傳送給更多標記者。 如果項目進入標籤人員數目上限之後沒有共識,其狀態是 [需要檢閱],而項目擁有者要負責標示項目。

使用 ML 輔助的資料標記

若要加速標記工作,[ML 輔助標記] 頁面可觸發自動機器學習模型。 機器學習 (ML) 輔助標記可以處理兩種檔案 (.txt) 和表格式 (.csv) 文字資料輸入。

若要使用 ML 輔助標記:

  1. 選取 [啟用 ML 輔助標記]
  2. 為專案選取 [資料集語言]。 此清單會顯示 TextDNNLanguages Class 支援的所有語言。
  3. 指定要使用的計算目標。 如果您的工作區中沒有計算目標,此步驟會建立計算叢集,並將其新增至您的工作區。 叢集會以最少零個節點建立,不使用時不會花費任何成本。

ML 輔助標記的詳細資訊

在標記專案開始時,項目會隨機轉換成隨機順序,以減少可能的偏差。 不過,已定型的模型會反映資料集中出現的任何偏差。 例如,如果 80% 的項目屬於單一類別,則用來定型模型的資料有大約 80% 會落在該類別。

為了定型 ML 輔助標記所使用的文字 DNN 模型,每個定型範例的輸入文字會限制為文件中大約前 128 個字組。 若為表格式輸入,則會先串連所有文字資料行,再套用此限制。 此實際限制可讓模型定型在合理的時間內完成。 文件中 (針對檔案輸入) 或一組文字資料行 (針對表格式輸入) 的實際文字可能會超過 128 個字組。 限制只與定型程序期間模型內部使用的內容有關。

啟動輔助標記所需的標記項目數目不固定。 此數字可能會因為一個標記專案而產生很大的差異。 變異數取決於許多因素,包括標籤類別的數目和標籤分佈。

當您使用共識標籤時,會使用共識標籤進行定型。

由於最終標籤仍仰賴標記者的輸入,因此此項技術有時也稱為人為迴圈標記。

注意

ML 輔助資料標記不支援在虛擬網路後方受到保護的預設儲存體帳戶。 您必須針對 ML 輔助資料標記使用非預設儲存體帳戶。 非預設儲存體帳戶可以在虛擬網路後方受到保護。

預先標記

提交足夠的標籤進行定型後,就會使用定型的模型來預測標記。 現在標籤人員會看到頁面顯示每個項目上都已有預測標籤。 接著,工作會涉及檢閱這些預測,並在頁面提交之前更正任何標記錯誤的項目。

在手動標記的資料上定型機器學習模型之後,模型會在一組測試手動標記項目上進行評估。 評估有助於判斷模型在不同信賴度閾值上的正確性。 此評估程序會設定信賴度閾值,高於該閾值表示模型的精確度足以顯示預先標記。 然後系統會針對未標記的資料評估模型。 預測超過此閾值的項目會使用預先標記。

將文字標記專案初始化

在標記專案初始化後,專案的某些層面將無法變更。 您無法變更工作類型或資料集。 您可以修改標籤,以及工作描述的 URL。 在建立專案之前,請仔細檢閱設定。 提交專案之後,您就會回到資料標記概觀頁面,此處會將專案顯示為 [正在初始化]

注意

概觀頁面可能不會自動重新整理。 在暫停之後,請手動重新整理頁面,以確認專案的狀態是否為 [已建立]

疑難排解

若對建立專案或存取資料有疑問,請參閱對資料標記進行疑難排解

下一步