Etichettare dati di testo per il training di un modello
Prima di eseguire il training del modello, è necessario etichettare i documenti con le classi in cui classificarli. L'etichettatura dei dati è un passaggio fondamentale nel ciclo di vita dello sviluppo; in questo passaggio è possibile creare le classi in cui classificare i dati ed etichettare i documenti con tali classi. Questi dati verranno usati nel passaggio successivo durante il training del modello in modo che il modello possa apprendere dai dati etichettati. Se i dati sono già stati etichettati, è possibile importarli direttamente nel progetto, ma è necessario accertarsi che i dati seguano il formato di dati accettato.
Prima di creare un modello di classificazione del testo personalizzato, è necessario prima etichettare i dati. Se i dati non sono ancora etichettati, è possibile etichettarli in Language Studio. I dati etichettati informano il modello su come interpretare il testo e usarlo per il training e la valutazione.
Prerequisiti
Prerequisiti per l’etichettatura dei dati:
- Un progetto creato correttamente con un account di archiviazione BLOB di Azure configurato.
- Documenti contenenti i dati di testo che sono stati caricati nell'account di archiviazione.
Per altre informazioni, vedere il ciclo di vita di sviluppo di un progetto.
Linee guida per l'etichettatura dei dati
Dopo la preparazione dei dati, la progettazione dello schema e la creazione del progetto, sarà necessario etichettare i dati. L'etichettatura dei dati è importante, in quanto il modello saprà quali documenti saranno associati alle classi necessarie. Quando si etichettano i dati in Language Studio (o si importano dati etichettati), queste etichette verranno archiviate nel file JSON nel contenitore di archiviazione connesso a questo progetto.
Quando si etichettano i dati, tenere presente quanto segue:
In generale, maggiore è la quantità di dati etichettati, migliori saranno i risultati, purché i dati siano etichettati in modo accurato.
Non esiste un numero fisso di etichette in grado di garantire prestazioni ottimali del modello. Le prestazioni del modello dipendono dalla possibile ambiguità nello schema e dalla qualità dei dati etichettati. Tuttavia, è consigliabile avere 50 documenti etichettati per classe.
Assegnare etichette ai dati
Usare la procedura seguente per etichettare i dati:
Accedere alla pagina del progetto in Language Studio.
Nel menu a sinistra selezionare Etichettatura dati. È possibile trovare un elenco di tutti i documenti nel contenitore di archiviazione. Vedere l'immagine seguente.
Suggerimento
È possibile usare i filtri nel menu in alto per visualizzare i file non etichettati in modo da poter iniziare a etichettarli. È possibile usare i filtri anche per visualizzare i documenti etichettati con una classe specifica.
Passare alla vista dei singoli file dal lato sinistro nel menu in alto o selezionare un file specifico per avviare l'etichettatura. A sinistra è possibile trovare un elenco di tutti i file
.txt
disponibili nei progetti. Per spostarsi tra i documenti, è possibile usare i pulsanti Indietro e Avanti nella parte inferiore della pagina.Nota
Se sono state abilitate più lingue per il progetto, nel menu in alto è presente un elenco a discesa Lingua che consente di selezionare la lingua di ogni documento.
Nel riquadro a destra, aggiungere la classe al progetto in modo da iniziare a etichettare i dati con la classe.
Avviare l’etichettatura dei file.
Classificazione multietichetta: il file può essere etichettato con più classi; a tal fine, selezionare tutte le caselle di controllo pertinenti accanto alle classi con cui etichettare il documento.
È anche possibile usare la funzionalità di etichettatura automatica per accertarsi che l'etichettatura sia completa.
Nel riquadro a destra sotto il pivot Etichette, è possibile trovare tutte le classi nel progetto e il numero di istanze etichettate per ognuna.
Nella sezione inferiore del riquadro a destra è possibile aggiungere il file visualizzato al set di training o al set di test. Per impostazione predefinita, tutti i documenti vengono aggiunti al set di training. Consultare altre informazioni sui set di training e di test e su come vengono usati per il training e la valutazione del modello.
Suggerimento
Se si prevede di usare la divisione dei dati automatica, usare l'opzione predefinita per assegnare tutti i documenti nel set di training.
Nel pivot Distribuzione, è possibile visualizzare la distribuzione tra set di training e di test. Sono disponibili due opzioni di visualizzazione:
- Istanze totali, in cui è possibile visualizzare il numero di tutte le istanze etichettate di una classe specifica.
- Documenti con almeno un'etichetta, in cui ogni documento viene conteggiato se contiene almeno un'istanza etichettata di questa classe.
Durante l'etichettatura, le modifiche verranno sincronizzate periodicamente; se non sono state ancora salvate, verrà visualizzato un avviso nella parte superiore della pagina. Per il salvataggio manuale, selezionare il pulsante Salva etichette nella parte inferiore della pagina.
Rimuovere etichette
Per rimuovere un'etichetta, deselezionare il pulsante accanto alla classe.
Eliminare classi
Per eliminare una classe, selezionare l'icona di eliminazione accanto alla classe da rimuovere. L'eliminazione di una classe rimuoverà tutte le relative istanze etichettate dal set di dati.
Passaggi successivi
Dopo aver etichettato i dati, è possibile iniziare il training di un modello in modo che apprenda in base ai dati.