Termini e definizioni usate nella classificazione personalizzata del testo
Questo articolo contiene informazioni su alcune definizioni e termini che possono essere rilevati quando si usa la classificazione personalizzata del testo.
Classe
Una classe è una categoria definita dall'utente che indica la classificazione complessiva del testo. Gli sviluppatori etichettano i dati con le loro classi prima di passarli al modello per il training.
Punteggio F1
Il punteggio F1 è una funzione di Precisione e Richiamo. È necessario quando l’obiettivo è bilanciare precisione e richiamo.
Modello
Un modello è un oggetto sottoposto a training per l’esecuzione di una determinata attività, in questo caso attività di classificazione del testo. I modelli vengono sottoposti a training fornendo dati etichettati da cui apprendere in modo che possano essere usati in un secondo momento per attività di classificazione.
- Il training del modello è il processo con cui si insegna al modello come classificare i documenti in base ai dati etichettati.
- La valutazione del modello è il processo che avviene subito dopo il training per valutare le prestazioni del modello.
- La distribuzione è il processo che consiste nell’assegnare un modello a una distribuzione per renderlo disponibile all'uso tramite l'API di stima.
Precisione
Misura la precisione o l'accuratezza del modello. È il rapporto tra i positivi identificati correttamente (veri positivi) e tutti i positivi identificati. La metrica Precision rivela quante delle classi stimate sono etichettate correttamente.
Project
Un progetto è un'area di lavoro per la creazione di modelli di Machine Learning personalizzati in base ai dati. Al progetto può accedere solo l'utente e altri utenti che hanno accesso alla risorsa di Azure in uso.
Come prerequisito per la creazione di un progetto di classificazione personalizzata del testo, è necessario connettere la propria risorsa a un account di archiviazione con un proprio set di dati quando si crea un nuovo progetto. Il progetto include automaticamente tutti i file .txt
disponibili nel contenitore.
All’interno del progetto è possibile effettuare le operazioni seguenti:
- Etichettare i dati: è il processo di etichettatura dei dati in modo che, quando si esegue il training, il modello apprende cosa estrarre.
- Creare ed eseguire il training del modello: è il passaggio principale del progetto in cui il modello inizia ad apprendere dai dati etichettati.
- Visualizzare i dettagli di valutazione del modello: esaminare le prestazioni del modello per decidere se esistono aree di miglioramento o se i risultati sono soddisfacenti.
- Distribuzione: dopo aver esaminato le prestazioni del modello e aver deciso che è adatto all’uso nel proprio ambiente, è necessario assegnarlo a una distribuzione per l’esecuzione di query. L’assegnazione di un modello a una distribuzione consente di renderlo disponibile all'uso tramite l'API di stima.
- Testare il modello: dopo la distribuzione del modello, è possibile usare questa operazione in Language Studio per provare la distribuzione e scoprire come funzionerebbe nell'ambiente di produzione.
Tipi di progetto
La classificazione personalizzata del testo supporta due tipi di progetti
- Classificazione con etichetta singola: è possibile assegnare una singola classe per ogni documento nel set di dati. Ad esempio, la trama di un film può essere classificata solo come "Romanticismo" o "Commedia".
- Classificazione multietichetta: è possibile assegnare più classi per ogni documento nel set di dati. Ad esempio, la trama di un film può essere classificata come “Commedia” o "Storia d’amore" e "Commedia".
Richiamo
Misura la capacità del modello di stimare le classi positive effettive. È il rapporto tra i veri positivi stimati e ciò che è stato effettivamente contrassegnato. La metrica di richiamo indica il numero di classi stimate che sono corrette.