Come eseguire il training di un modello di classificazione del testo personalizzato

Articolo
10/16/2024

Il training è il processo in cui il modello apprende dai dati etichettati. Al termine del training, sarà possibile visualizzare le prestazioni del modello per stabilire se è necessario migliorarlo.

Per eseguire il training di un modello, avviare un processo di training. Solo i processi completati correttamente creano un modello usabile. I processi di training scadono dopo sette giorni. Dopo questo periodo, non sarà possibile recuperare i dettagli del processo. Se il processo di training è stato completato correttamente ed è stato creato un modello, tale modello non è interessato dalla scadenza del processo. È possibile eseguire un solo processo di training alla volta e non è possibile avviare altri processi nello stesso progetto.

I tempi di training possono variare da pochi minuti, quando i documenti gestiti sono pochi, fino a diverse ore, a seconda delle dimensioni del set di dati e della complessità dello schema.

Prerequisiti

Prima di eseguire il training del modello, è necessario:

Un progetto creato correttamente con un account di archiviazione BLOB di Azure configurato,
Dati di testo caricati nell'account di archiviazione.
Dati etichettati

Per altre informazioni, vedere il ciclo di vita di sviluppo di un progetto.

Separazione dei dati

Prima di iniziare il processo di training, i documenti etichettati nel progetto vengono suddivisi in un set di training e un set di test. Ognuno svolge una funzione diversa. Il set di training viene usato nel training del modello ed è il set da cui il modello apprende le classi/classi assegnate a ciascun documento. Il set di test è un set cieco che non viene introdotto nel modello durante il training, ma solo durante la valutazione. Una volta eseguito il training del modello correttamente, è possibile usare il modello per eseguire stime dai documenti nel set di test. In base a queste stime, verranno calcolate le metriche di valutazione del modello. È preferibile accertarsi che tutte le classi siano adeguatamente rappresentate sia nel set di training che nel set di test.

La classificazione personalizzata del testo supporta due metodi per la divisione dei dati:

Divisione automatica del set di test dai dati di training: il sistema suddividerà i dati etichettati tra il set di training e il set di test in base alle percentuali scelte dall’utente. Il sistema tenterà di avere una rappresentazione di tutte le classi nel set di training. La divisione percentuale consigliata è l'80% per il training e il 20% per i test.

Nota

Se si sceglie l'opzione Divisione automatica del set di test dai dati di training, solo i dati assegnati al set di training verranno divisi in base alle percentuali specificate.

Usa una divisione manuale dei dati di training e di test: questo metodo consente agli utenti di definire a quale set devono appartenere i documenti etichettati. Questo passaggio è abilitato solo se sono stati aggiunti documenti al set di test durante l’etichettatura dei dati.

Per avviare il training di un modello da Language Studio:

Selezionare Processi di training dal menu a sinistra.
Selezionare Avvia un processo di training dal menu in alto.
Selezionare Esegui il training di un nuovo modello e digitare il nome del modello nella casella di testo. Si può anche sovrascrivere un modello esistente selezionando questa opzione e scegliendo il modello da sovrascrivere dal menu a discesa. La sovrascrittura di un modello sottoposto a training è irreversibile, ma non influisce sui modelli distribuiti fino a quando non si distribuisce il nuovo modello.
Selezionare il metodo di divisione dei dati. È possibile scegliere Divisione automatica del set di test dai dati di training in modo che il sistema divida i dati etichettati tra il set di training e il set di test in base alle percentuali scelte dall’utente. In alternativa, è possibile scegliere l’opzione Usa una divisione manuale dei dati di training e di test, che è abilitata solo se sono stati aggiunti documenti al set di test durante l’etichettatura dei dati. Per altre informazioni sulla divisione dei dati, vedere Come eseguire il training di un modello.
Selezionare il pulsante Esegui il training.
Se si seleziona l'ID del processo di training dall'elenco, viene visualizzato un riquadro laterale in cui è possibile controllare lo stato di avanzamento del training, lo stato del processo e altri dettagli relativi a questo processo.
Nota
- Solo i processi di training completati correttamente genereranno modelli.
- L’esecuzione del training del modello può richiedere da qualche minuto a diverse ore, in base alle dimensioni dei dati etichettati.
- È possibile eseguire un solo processo di training alla volta. Non è possibile avviare altri processi di training nello stesso progetto fino al completamento del processo in esecuzione.

Avviare l'esecuzione del training

Inviare una richiesta POST usando l'URL, le intestazioni e il corpo JSON seguenti per inviare un processo di training. Sostituire i valori segnaposto seguenti con i propri valori.

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/:train?api-version={API-VERSION}

Segnaposto	Valore	Esempio
`{ENDPOINT}`	Endpoint per l'autenticazione della richiesta API.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Il nome del progetto. Per questo valore viene applicata la distinzione tra maiuscole e minuscole.	`myProject`
`{API-VERSION}`	La versione dell'API che si sta chiamando. Il valore a cui si fa riferimento qui è relativo alla versione più recente rilasciata. Altre informazioni su altre versioni dell’API disponibili	`2022-05-01`

Intestazioni

Usare l'intestazione seguente per autenticare la richiesta.

Chiave	valore
`Ocp-Apim-Subscription-Key`	La chiave della risorsa. È usata per l’autenticazione delle richieste API.

Corpo della richiesta

Usare il JSON seguente nel corpo della richiesta. Al termine del training, al modello verrà assegnato {MODEL-NAME}. Solo i processi di training riusciti produrranno modelli.

{
	"modelLabel": "{MODEL-NAME}",
	"trainingConfigVersion": "{CONFIG-VERSION}",
	"evaluationOptions": {
		"kind": "percentage",
		"trainingSplitPercentage": 80,
		"testingSplitPercentage": 20
	}
}

Chiave	Segnaposto	Valore	Esempio
modelLabel	`{MODEL-NAME}`	Nome del modello che verrà assegnato al modello dopo aver eseguito il training correttamente.	`myModel`
trainingConfigVersion	`{CONFIG-VERSION}`	È la versione del modello che verrà usata per il training del modello.	`2022-05-01`
evaluationOptions		Opzione per dividere i dati tra set di training e set di test.	`{}`
kind	`percentage`	Metodi di divisione. I possibili valori sono `percentage` o `manual`. Per altre informazioni, vedere Come eseguire il training di un modello.	`percentage`
trainingSplitPercentage	`80`	Percentuale dei dati con tag da includere nel set di training. Il valore consigliato è `80`.	`80`
testingSplitPercentage	`20`	Percentuale dei dati con tag da includere nel set di test. Il valore consigliato è `20`.	`20`

Nota

trainingSplitPercentage e testingSplitPercentage sono necessari solo se Kind è impostato su percentage e la somma di entrambe le percentuali deve essere uguale a 100.

Dopo aver inviato la richiesta API, si riceverà una risposta 202 che indica che il processo è stato inviato correttamente. Nelle intestazioni della risposta estrarre il valore location. Il formato sarà simile al seguente:

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

{JOB-ID} viene usato per identificare la richiesta, poiché questa operazione è asincrona. È possibile usare questo URL per ottenere lo stato del training.

Ottenere lo stato del processo di training

Il training può richiedere tempo a seconda delle dimensioni dei dati di training e della complessità dello schema. È possibile usare la richiesta seguente per continuare il polling dello stato del processo di training fino a quando viene completato correttamente.

Usare la seguente richiesta GET per ottenere lo stato dello stato di avanzamento del training del modello. Sostituire i valori segnaposto seguenti con i propri valori.

Richiesta URL

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

Segnaposto	Valore	Esempio
`{ENDPOINT}`	Endpoint per l'autenticazione della richiesta API.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Il nome del progetto. Per questo valore viene applicata la distinzione tra maiuscole e minuscole.	`myProject`
`{JOB-ID}`	L’ID per individuare lo stato del training del modello. Questo valore si trova nel valore dell'intestazione `location` ricevuto nel passaggio precedente.	`xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxxx`
`{API-VERSION}`	La versione dell'API che si sta chiamando. Il valore a cui si fa riferimento qui è relativo alla versione più recente rilasciata. Per altre informazioni su altre versioni disponibili dell’API, vedere Ciclo di vita di un modello.	`2022-05-01`

Intestazioni

Usare l'intestazione seguente per autenticare la richiesta.

Chiave	valore
`Ocp-Apim-Subscription-Key`	La chiave della risorsa. È usata per l’autenticazione delle richieste API.

Testo della risposta

Dopo aver inviato la richiesta, si otterrà la risposta seguente.

{
  "result": {
    "modelLabel": "{MODEL-NAME}",
    "trainingConfigVersion": "{CONFIG-VERSION}",
    "estimatedEndDateTime": "2022-04-18T15:47:58.8190649Z",
    "trainingStatus": {
      "percentComplete": 3,
      "startDateTime": "2022-04-18T15:45:06.8190649Z",
      "status": "running"
    },
    "evaluationStatus": {
      "percentComplete": 0,
      "status": "notStarted"
    }
  },
  "jobId": "{JOB-ID}",
  "createdDateTime": "2022-04-18T15:44:44Z",
  "lastUpdatedDateTime": "2022-04-18T15:45:48Z",
  "expirationDateTime": "2022-04-25T15:44:44Z",
  "status": "running"
}

Annullare un processo di training

Language Studio
API REST

Per annullare un processo di training in Language Studio, accedere alla pagina Processi di training. Selezionare il processo di training da annullare e selezionare Annulla dal menu in alto.

Creare una richiesta POST usando l'URL, le intestazioni e il corpo JSON seguenti per annullare un processo di training.

Richiesta URL

Usare l'URL seguente durante la creazione della richiesta API. Sostituire i valori segnaposto seguenti con i propri valori.

{Endpoint}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}/:cancel?api-version={API-VERSION}

Segnaposto	Valore	Esempio
`{ENDPOINT}`	Endpoint per l'autenticazione della richiesta API.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Nome del progetto. Per questo valore viene applicata la distinzione tra maiuscole e minuscole.	`EmailApp`
`{JOB-ID}`	Questo valore è l'ID processo di training.	`XXXXX-XXXXX-XXXX-XX`
`{API-VERSION}`	La versione dell'API che viene richiamata. Il valore a cui fa riferimento qui è relativo all’ultima versione del modello rilasciata.	`2022-05-01`

Intestazioni

Usare l'intestazione seguente per autenticare la richiesta.

Chiave	valore
`Ocp-Apim-Subscription-Key`	La chiave della risorsa. È usata per l’autenticazione delle richieste API.

Dopo aver inviato la richiesta API, si riceverà una risposta 202 con un'intestazione Operation-Location usata per controllare lo stato del processo.

Passaggi successivi

Al termine del training, sarà possibile visualizzare le prestazioni del modello per poterlo eventualmente migliorare. Se il modello è soddisfacente, è possibile distribuirlo, rendendolo disponibile all’uso per la classificazione del testo.

Condividi tramite

Come eseguire il training di un modello di classificazione del testo personalizzato

Prerequisiti

Separazione dei dati

Eseguire il training del modello

Avviare l'esecuzione del training

Intestazioni

Corpo della richiesta

Ottenere lo stato del processo di training

Richiesta URL

Intestazioni

Testo della risposta

Annullare un processo di training

Richiesta URL

Intestazioni

Passaggi successivi

Commenti e suggerimenti

Risorse aggiuntive