Träna din anpassade namngivna entitetsigenkänningsmodell

Artikel
10/16/2024

Träning är den process där modellen lär sig av dina märkta data. När träningen är klar kan du visa modellens prestanda för att avgöra om du behöver förbättra din modell.

Om du vill träna en modell startar du ett träningsjobb och endast slutförda jobb skapar en modell. Träningsjobb upphör att gälla efter sju dagar, vilket innebär att du inte kan hämta jobbinformationen efter den här tiden. Om ditt träningsjobb har slutförts och en modell har skapats påverkas inte modellen. Du kan bara ha ett träningsjobb i taget och du kan inte starta andra jobb i samma projekt.

Träningstiderna kan vara var som helst från några minuter när du hanterar få dokument, upp till flera timmar beroende på datamängdens storlek och schemats komplexitet.

Förutsättningar

Ett projekt som har skapats med ett konfigurerat Azure Blob Storage-konto
Textdata som har laddats upp till ditt lagringskonto .
Etiketterade data

Mer information finns i livscykeln för projektutveckling.

Datadelning

Innan du påbörjar träningsprocessen delas märkta dokument i projektet in i en träningsuppsättning och en testuppsättning. Var och en av dem har olika funktioner. Träningsuppsättningen används för att träna modellen, det här är den uppsättning som modellen lär sig de märkta entiteterna från och vilka textintervall som ska extraheras som entiteter. Testuppsättningen är en blinduppsättning som inte introduceras i modellen under träningen utan endast under utvärderingen. När modellträningen har slutförts används modellen för att göra förutsägelser från dokumenten i testningen och baserat på dessa förutsägelser beräknas utvärderingsmått. Vi rekommenderar att du ser till att alla dina entiteter är tillräckligt representerade i både tränings- och testuppsättningen.

Custom NER har stöd för två metoder för datadelning:

Dela automatiskt upp testuppsättningen från träningsdata:Systemet delar upp dina märkta data mellan tränings- och testuppsättningarna enligt de procentandelar du väljer. Den rekommenderade procentuella uppdelningen är 80 % för träning och 20 % för testning.

Kommentar

Om du väljer alternativet Dela upp testuppsättningen automatiskt från träningsdata delas endast de data som tilldelats träningsuppsättningen upp enligt de procentsatser som anges.

Använd en manuell uppdelning av tränings- och testdata: Med den här metoden kan användarna definiera vilka etiketterade dokument som ska tillhöra vilken uppsättning. Det här steget är bara aktiverat om du har lagt till dokument i testuppsättningen under dataetiketter.

Så här börjar du träna din modell inifrån Language Studio:

Välj Träningsjobb på menyn till vänster.
Välj Starta ett träningsjobb på den översta menyn.
Välj Träna en ny modell och skriv in modellnamnet i textrutan. Du kan också skriva över en befintlig modell genom att välja det här alternativet och välja den modell som du vill skriva över från den nedrullningsbara menyn. Att skriva över en tränad modell är oåterkalleligt, men det påverkar inte dina distribuerade modeller förrän du distribuerar den nya modellen.
Välj datadelningsmetod. Du kan välja Att automatiskt dela upp testuppsättningen från träningsdata där systemet delar upp dina märkta data mellan tränings- och testuppsättningarna, enligt de angivna procentandelarna. Eller så kan du använda en manuell delning av tränings- och testdata. Det här alternativet är bara aktiverat om du har lagt till dokument i testuppsättningen under dataetiketteringen. Se Träna en modell för information om datadelning.
Välj knappen Träna.
Om du väljer ID för träningsjobb i listan visas en sidoruta där du kan kontrollera träningsförloppet, jobbstatusen och annan information för det här jobbet.
Kommentar
- Endast slutförda träningsjobb genererar modeller.
- Träningen kan ta lite tid mellan ett par minuter och flera timmar baserat på storleken på dina märkta data.
- Du kan bara köra ett träningsjobb i taget. Du kan inte starta ett annat träningsjobb i samma projekt förrän det pågående jobbet har slutförts.

Starta träningsjobbet

Skicka en POST-begäran med hjälp av följande URL, rubriker och JSON-brödtext för att skicka ett träningsjobb. Ersätt platshållarvärdena nedan med dina egna värden.

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/:train?api-version={API-VERSION}

Platshållare	Värde	Exempel
`{ENDPOINT}`	Slutpunkten för att autentisera din API-begäran.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Namnet på projektet. Det här värdet är skiftlägeskänsligt.	`myProject`
`{API-VERSION}`	Den version av API:et som du anropar. Värdet som refereras här är för den senaste versionen som släppts. Mer information om andra tillgängliga API-versioner finns i Modelllivscykel .	`2022-05-01`

Sidhuvuden

Använd följande rubrik för att autentisera din begäran.

Tangent	Värde
`Ocp-Apim-Subscription-Key`	Nyckeln till resursen. Används för att autentisera dina API-begäranden.

Begärandetext

Använd följande JSON i begärandetexten. Modellen kommer att ges när {MODEL-NAME} träningen är klar. Endast lyckade träningsjobb skapar modeller.

{
	"modelLabel": "{MODEL-NAME}",
	"trainingConfigVersion": "{CONFIG-VERSION}",
	"evaluationOptions": {
		"kind": "percentage",
		"trainingSplitPercentage": 80,
		"testingSplitPercentage": 20
	}
}

Nyckel	Platshållare	Värde	Exempel
modelLabel	`{MODEL-NAME}`	Modellnamnet som ska tilldelas till din modell när den har tränats.	`myModel`
trainingConfigVersion	`{CONFIG-VERSION}`	Det här är den modellversion som ska användas för att träna modellen.	`2022-05-01`
evaluationOptions		Alternativ för att dela upp dina data mellan tränings- och testuppsättningar.	`{}`
typ	`percentage`	Dela upp metoder. Möjliga värden är `percentage` eller `manual`. Mer information finns i Träna en modell .	`percentage`
trainingSplitPercentage	`80`	Procentandel av dina taggade data som ska ingå i träningsuppsättningen. Rekommenderat värde är `80`.	`80`
testingSplitPercentage	`20`	Procentandel av dina taggade data som ska ingå i testuppsättningen. Rekommenderat värde är `20`.	`20`

Kommentar

Och trainingSplitPercentage testingSplitPercentage krävs endast om Kind anges till percentage och summan av båda procentandelarna ska vara lika med 100.

När du har skickat din API-begäran får du ett 202 svar som anger att jobbet har skickats korrekt. Extrahera värdet i svarshuvudena location . Den formateras så här:

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

{JOB-ID} används för att identifiera din begäran, eftersom den här åtgärden är asynkron. Du kan använda den här URL:en för att hämta träningsstatusen.

Hämta status för träningsjobb

Träningen kan ta en stund beroende på storleken på dina träningsdata och schemats komplexitet. Du kan använda följande begäran för att fortsätta avsöka statusen för träningsjobbet tills det har slutförts.

Använd följande GET-begäran för att få status för din modells träningsförlopp. Ersätt platshållarvärdena nedan med dina egna värden.

Begärans-URL

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

Platshållare	Värde	Exempel
`{ENDPOINT}`	Slutpunkten för att autentisera din API-begäran.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Namnet på projektet. Det här värdet är skiftlägeskänsligt.	`myProject`
`{JOB-ID}`	ID:t för att hitta modellens träningsstatus. Det här värdet finns i det `location` rubrikvärde som du fick i föregående steg.	`xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxxx`
`{API-VERSION}`	Den version av API:et som du anropar. Värdet som refereras här är för den senaste versionen som släppts. Mer information om andra tillgängliga API-versioner finns i Modelllivscykel .	`2022-05-01`

Sidhuvuden

Använd följande rubrik för att autentisera din begäran.

Tangent	Värde
`Ocp-Apim-Subscription-Key`	Nyckeln till resursen. Används för att autentisera dina API-begäranden.

Svarstext

När du har skickat begäran får du följande svar.

{
  "result": {
    "modelLabel": "{MODEL-NAME}",
    "trainingConfigVersion": "{CONFIG-VERSION}",
    "estimatedEndDateTime": "2022-04-18T15:47:58.8190649Z",
    "trainingStatus": {
      "percentComplete": 3,
      "startDateTime": "2022-04-18T15:45:06.8190649Z",
      "status": "running"
    },
    "evaluationStatus": {
      "percentComplete": 0,
      "status": "notStarted"
    }
  },
  "jobId": "{JOB-ID}",
  "createdDateTime": "2022-04-18T15:44:44Z",
  "lastUpdatedDateTime": "2022-04-18T15:45:48Z",
  "expirationDateTime": "2022-04-25T15:44:44Z",
  "status": "running"
}

Avbryt träningsjobbet

Language Studio
REST API:er

Om du vill avbryta ett träningsjobb från Language Studio går du till sidan Träningsjobb . Välj det träningsjobb som du vill avbryta och välj Avbryt på den översta menyn.

Skapa en POST-begäran med hjälp av följande URL, rubriker och JSON-brödtext för att avbryta ett träningsjobb.

Begärans-URL

Använd följande URL när du skapar din API-begäran. Ersätt platshållarvärdena nedan med dina egna värden.

{Endpoint}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}/:cancel?api-version={API-VERSION}

Platshållare	Värde	Exempel
`{ENDPOINT}`	Slutpunkten för att autentisera din API-begäran.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Namnet på projektet. Det här värdet är skiftlägeskänsligt.	`EmailApp`
`{JOB-ID}`	Det här värdet är träningsjobbets ID.	`XXXXX-XXXXX-XXXX-XX`
`{API-VERSION}`	Den version av API:et som du anropar. Värdet som refereras är för den senaste versionen av modellen.	`2022-05-01`

Sidhuvuden

Använd följande rubrik för att autentisera din begäran.

Tangent	Värde
`Ocp-Apim-Subscription-Key`	Nyckeln till resursen. Används för att autentisera dina API-begäranden.

När du har skickat din API-begäran får du ett 202-svar med en Operation-Location rubrik som används för att kontrollera jobbets status.

Nästa steg

När träningen har slutförts kan du visa modellprestanda för att eventuellt förbättra din modell om det behövs. När du är nöjd med din modell kan du distribuera den och göra den tillgänglig för att extrahera entiteter från text.

Dela via

Träna din anpassade namngivna entitetsigenkänningsmodell

Förutsättningar

Datadelning

Träna en modell

Starta träningsjobbet

Sidhuvuden

Begärandetext

Hämta status för träningsjobb

Begärans-URL

Sidhuvuden

Svarstext

Avbryt träningsjobbet

Begärans-URL

Sidhuvuden

Nästa steg

Feedback

Ytterligare resurser