Trénování vlastního modelu klasifikace textu

Článek
10/16/2024

Trénování je proces, při kterém se model učí z označených dat. Po dokončení trénování budete moct zobrazit výkon modelu a zjistit, jestli potřebujete model vylepšit.

Pokud chcete vytrénovat model, spusťte trénovací úlohu. Pouze úspěšně dokončené úlohy vytvoří použitelný model. Platnost trénovacích úloh vyprší po sedmi dnech. Po tomto období nebudete moct načíst podrobnosti úlohy. Pokud se vaše trénovací úloha úspěšně dokončila a vytvořil se model, nebude to mít vliv na vypršení platnosti úlohy. Najednou můžete mít spuštěnou jenom jednu trénovací úlohu a nemůžete spustit jiné úlohy ve stejném projektu.

Časy trénování můžou být během několika minut při práci s několika dokumenty až několik hodin v závislosti na velikosti datové sady a složitosti schématu.

Požadavky

Než model vytrénujete, potřebujete:

Úspěšně vytvořený projekt s nakonfigurovaným účtem úložiště objektů blob v Azure
Textová data, která se nahrála do vašeho účtu úložiště
Označená data

Další informace najdete v životním cyklu vývoje projektu.

Rozdělování dat

Než začnete s procesem trénování, budou označené dokumenty v projektu rozdělené do trénovací sady a testovací sady. Každý z nich slouží jiné funkci. Trénovací sada se používá v trénování modelu. Jedná se o sadu, ze které se model učí třídy nebo třídy přiřazené k jednotlivým dokumentům. Testovací sada je nevidomá sada , která není součástí modelu během trénování, ale pouze během vyhodnocení. Jakmile se model úspěšně natrénuje, použije se k vytváření předpovědí z dokumentů v testovací sadě. Na základě těchto předpovědí se počítají metriky vyhodnocení modelu. Doporučuje se zajistit, aby všechny vaše třídy byly odpovídajícím způsobem reprezentovány v trénovací i testovací sadě.

Vlastní klasifikace textu podporuje dvě metody rozdělení dat:

Automatické rozdělení testovací sady z trénovacích dat: Systém rozdělí označená data mezi trénovací a testovací sady podle zvolených procent. Systém se pokusí mít ve vaší trénovací sadě reprezentaci všech tříd. Doporučené procento rozdělení je 80 % pro trénování a 20 % pro testování.

Poznámka:

Pokud zvolíte možnost Automatické rozdělení testovací sady z trénovacích dat , rozdělí se pouze data přiřazená k trénovací sadě podle zadaných procent.

Použijte ruční rozdělení trénovacích a testovacích dat: Tato metoda umožňuje uživatelům definovat, které označené dokumenty mají patřit do které sady. Tento krok je povolený jenom v případě, že jste do testovací sady přidali dokumenty během označování dat.

Zahájení trénování modelu v sadě Language Studio:

V nabídce na levé straně vyberte Úlohy trénování .
V horní nabídce vyberte Spustit trénovací úlohu .
Vyberte Vytrénovat nový model a do textového pole zadejte název modelu. Existující model můžete také přepsat tak, že vyberete tuto možnost a zvolíte model, který chcete přepsat z rozevírací nabídky. Přepsání natrénovaného modelu je nevratné, ale nebude mít vliv na nasazené modely, dokud nový model nenasadíte.
Vyberte metodu rozdělení dat. Můžete zvolit automatické rozdělení testovací sady z trénovacích dat , kde systém rozdělí označená data mezi trénovací a testovací sady podle zadaných procent. Nebo můžete použít ruční rozdělení trénovacích a testovacích dat, tato možnost je povolená jenom v případě, že jste do testovací sady přidali dokumenty během označování dat. Další informace o rozdělení dat najdete v tématu Postup trénování modelu .
Vyberte tlačítko Trénovat.
Pokud v seznamu vyberete ID trénovací úlohy, zobrazí se boční podokno, kde můžete zkontrolovat průběh trénování, stav úlohy a další podrobnosti o této úloze.
Poznámka:
- Pouze úspěšně dokončené trénovací úlohy vygenerují modely.
- Doba trénování modelu může trvat od několika minut do několika hodin na základě velikosti označených dat.
- Najednou můžete mít spuštěnou pouze jednu úlohu trénování. V rámci stejného projektu nemůžete spustit další úlohu trénování, dokud se nedokončí spuštěná úloha.

Zahájení trénovací úlohy

Odešlete požadavek POST pomocí následující adresy URL, hlaviček a textu JSON a odešlete trénovací úlohu. Nahraďte níže uvedené zástupné hodnoty vlastními hodnotami.

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/:train?api-version={API-VERSION}

Zástupný symbol	Hodnota	Příklad
`{ENDPOINT}`	Koncový bod pro ověření požadavku rozhraní API.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Název projektu. U této hodnoty se rozlišují malá a velká písmena.	`myProject`
`{API-VERSION}`	Verze rozhraní API, které voláte. Hodnota, na kterou se zde odkazuje, je určená pro nejnovější vydané verze. Další informace o dalších dostupných verzích rozhraní API	`2022-05-01`

Hlavičky

K ověření požadavku použijte následující hlavičku.

Key	Hodnota
`Ocp-Apim-Subscription-Key`	Klíč k vašemu prostředku. Používá se k ověřování požadavků rozhraní API.

Text požadavku

V textu požadavku použijte následující KÓD JSON. Po dokončení trénování bude model udělen {MODEL-NAME} . Modely budou vytvářet pouze úspěšné trénovací úlohy.

{
	"modelLabel": "{MODEL-NAME}",
	"trainingConfigVersion": "{CONFIG-VERSION}",
	"evaluationOptions": {
		"kind": "percentage",
		"trainingSplitPercentage": 80,
		"testingSplitPercentage": 20
	}
}

Klíč	Zástupný symbol	Hodnota	Příklad
modelLabel	`{MODEL-NAME}`	Název modelu, který se přiřadí k vašemu modelu po úspěšném natrénování.	`myModel`
trainingConfigVersion	`{CONFIG-VERSION}`	Toto je verze modelu, která se použije k trénování modelu.	`2022-05-01`
evaluationOptions		Možnost rozdělení dat mezi trénovací a testovací sady	`{}`
kind	`percentage`	Rozdělte metody. Možné hodnoty jsou `percentage` nebo `manual`. Další informace najdete v tématu Jak vytrénovat model .	`percentage`
trainingSplitPercentage	`80`	Procento označených dat, která se mají zahrnout do trénovací sady Doporučená hodnota je `80`.	`80`
testingSplitPercentage	`20`	Procento označených dat, která se mají zahrnout do testovací sady Doporučená hodnota je `20`.	`20`

Poznámka:

testingSplitPercentage A trainingSplitPercentage jsou vyžadovány pouze v případě, že Kind je nastavena percentage hodnota a součet obou procent by měl být roven 100.

Po odeslání požadavku rozhraní API obdržíte 202 odpověď, která značí, že úloha byla odeslána správně. V hlavičce odpovědi extrahujte location hodnotu. Bude formátován takto:

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

{JOB-ID} slouží k identifikaci vašeho požadavku, protože tato operace je asynchronní. Pomocí této adresy URL můžete získat stav trénování.

Získání stavu trénovací úlohy

Trénování může nějakou dobu trvat v závislosti na velikosti trénovacích dat a složitosti schématu. Pomocí následujícího požadavku můžete pokračovat v dotazování stavu úlohy trénování, dokud se úspěšně nedokončil.

Stav průběhu trénování modelu získáte pomocí následujícího požadavku GET . Nahraďte níže uvedené zástupné hodnoty vlastními hodnotami.

Adresa URL požadavku

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

Zástupný symbol	Hodnota	Příklad
`{ENDPOINT}`	Koncový bod pro ověření požadavku rozhraní API.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Název projektu. U této hodnoty se rozlišují malá a velká písmena.	`myProject`
`{JOB-ID}`	ID pro vyhledání stavu trénování modelu. Tato hodnota je v `location` hodnotě záhlaví, kterou jste obdrželi v předchozím kroku.	`xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxxx`
`{API-VERSION}`	Verze rozhraní API, které voláte. Hodnota, na kterou se zde odkazuje, je určená pro nejnovější vydané verze. Další informace o dalších dostupných verzích rozhraní API najdete v životním cyklu modelu.	`2022-05-01`

Hlavičky

K ověření požadavku použijte následující hlavičku.

Key	Hodnota
`Ocp-Apim-Subscription-Key`	Klíč k vašemu prostředku. Používá se k ověřování požadavků rozhraní API.

Text odpovědi

Po odeslání požadavku získáte následující odpověď.

{
  "result": {
    "modelLabel": "{MODEL-NAME}",
    "trainingConfigVersion": "{CONFIG-VERSION}",
    "estimatedEndDateTime": "2022-04-18T15:47:58.8190649Z",
    "trainingStatus": {
      "percentComplete": 3,
      "startDateTime": "2022-04-18T15:45:06.8190649Z",
      "status": "running"
    },
    "evaluationStatus": {
      "percentComplete": 0,
      "status": "notStarted"
    }
  },
  "jobId": "{JOB-ID}",
  "createdDateTime": "2022-04-18T15:44:44Z",
  "lastUpdatedDateTime": "2022-04-18T15:45:48Z",
  "expirationDateTime": "2022-04-25T15:44:44Z",
  "status": "running"
}

Zrušení trénovací úlohy

Language Studio
Rozhraní REST API

Pokud chcete zrušit trénovací úlohu v sadě Language Studio, přejděte na stránku Školicí úlohy . Vyberte trénovací úlohu, kterou chcete zrušit, a v horní nabídce vyberte Zrušit .

K zrušení trénovací úlohy vytvořte požadavek POST pomocí následující adresy URL, hlaviček a textu JSON.

Adresa URL požadavku

Při vytváření požadavku rozhraní API použijte následující adresu URL. Nahraďte níže uvedené zástupné hodnoty vlastními hodnotami.

{Endpoint}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}/:cancel?api-version={API-VERSION}

Zástupný symbol	Hodnota	Příklad
`{ENDPOINT}`	Koncový bod pro ověření požadavku rozhraní API.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Název projektu. U této hodnoty se rozlišují malá a velká písmena.	`EmailApp`
`{JOB-ID}`	Tato hodnota je ID trénovací úlohy.	`XXXXX-XXXXX-XXXX-XX`
`{API-VERSION}`	Verze rozhraní API, které voláte. Hodnota, na kterou odkazujeme, je určená pro nejnovější vydané verze modelu.	`2022-05-01`

Hlavičky

K ověření požadavku použijte následující hlavičku.

Key	Hodnota
`Ocp-Apim-Subscription-Key`	Klíč k vašemu prostředku. Používá se k ověřování požadavků rozhraní API.

Po odeslání požadavku rozhraní API obdržíte odpověď 202 s hlavičkou Operation-Location použitou ke kontrole stavu úlohy.

Další kroky

Po dokončení trénování budete moct zobrazit výkon modelu, abyste v případě potřeby mohli model volitelně vylepšit. Jakmile budete s modelem spokojeni, můžete ho nasadit a zpřístupnit ho ke klasifikaci textu.

Sdílet prostřednictvím

Trénování vlastního modelu klasifikace textu

Požadavky

Rozdělování dat

Trénování modelu

Zahájení trénovací úlohy

Hlavičky

Text požadavku

Získání stavu trénovací úlohy

Adresa URL požadavku

Hlavičky

Text odpovědi

Zrušení trénovací úlohy

Adresa URL požadavku

Hlavičky

Další kroky

Váš názor

Další materiály