Etichettare i dati in Language Studio

Prima di eseguire il training del modello, è necessario etichettare i documenti con le entità personalizzate da estrarre. L'etichettatura dei dati è un passaggio fondamentale del ciclo di vita dello sviluppo. In questo passaggio è possibile creare i tipi di entità da estrarre dai dati ed etichettare tali entità all'interno dei documenti. Questi dati verranno usati nel passaggio successivo durante il training del modello in modo che il modello possa apprendere dai dati etichettati. Se i dati sono già stati etichettati, è possibile importarli direttamente nel progetto, ma è necessario accertarsi che i dati seguano il formato di dati accettato. Per altre informazioni sull'importazione di dati etichettati nel progetto, vedere creare un progetto.

Prima di creare un modello di riconoscimento di entità denominate (NER) personalizzato, è necessario prima etichettare i dati. Se i dati non sono ancora etichettati, è possibile etichettarli in Language Studio. I dati etichettati informano il modello su come interpretare il testo e usarlo per il training e la valutazione.

Prerequisiti

Prima di etichettare i dati,sono necessari:

  • Un progetto creato correttamente con un account di archiviazione BLOB di Azure configurato
  • Dati di testo caricati nell'account di archiviazione.

Per altre informazioni, vedere il ciclo di vita di sviluppo di un progetto.

Linee guida per l'etichettatura dei dati

Dopo la preparazione dei dati, la progettazione dello schema e la creazione del progetto, sarà necessario etichettare i dati. L'etichettatura dei dati è importante, in quanto il modello saprà quali parole saranno associate ai tipi di entità da estrarre. Quando si etichettano i dati in Language Studio (o si importano dati etichettati), queste etichette verranno archiviate nel documento JSON nel contenitore di archiviazione connesso a questo progetto.

Quando si etichettano i dati, tenere presente quanto segue:

  • In generale, maggiore è la quantità di dati etichettati, migliori saranno i risultati, purché i dati siano etichettati in modo accurato.

  • La precisione, la coerenza e la completezza dei dati etichettati sono fattori chiave per le prestazioni del modello.

    • Etichettare con precisione: etichettare sempre ogni entità con il tipo corretto. Includere solo gli elementi da estrarre, evitando dati non necessari nelle etichette.
    • Etichettare con coerenza: la stessa entità deve avere la stessa etichetta in tutti i documenti.
    • Etichetta in maniera completa: etichettare tutte le istanze dell'entità in tutti i documenti. Per accertarsi che l'etichettatura sia completa, è possibile anche usare la funzionalità di etichettatura automatica.

    Nota

    Non esiste un numero fisso di etichette in grado di garantire prestazioni ottimali del modello. Le prestazioni del modello dipendono dalla possibile ambiguità nello schema e dalla qualità dei dati etichettati. Tuttavia, è consigliabile avere circa 50 istanze etichettate per tipo di entità.

Assegnare etichette ai dati

Usare la procedura seguente per etichettare i dati:

  1. Accedere alla pagina del progetto in Language Studio.

  2. Nel menu a sinistra selezionare Etichettatura dati. È possibile trovare un elenco di tutti i documenti nel contenitore di archiviazione.

    Suggerimento

    È possibile usare i filtri nel menu in alto per visualizzare i documenti non etichettati in modo da poter iniziare a etichettarli. È possibile anche usare i filtri per visualizzare i documenti etichettati con un tipo di entità specifico.

  3. Passare alla vista dei singoli documenti dal lato sinistro nel menu in alto o selezionare un documento specifico per avviare l'etichettatura. A sinistra è possibile trovare un elenco di tutti i documenti .txt disponibili nel progetto. È possibile usare il pulsante Indietro e Avanti nella parte inferiore della pagina per spostarsi tra i documenti.

    Nota

    Se sono state abilitate più lingue per il progetto, nel menu in alto è presente un elenco a discesa Lingua che consente di selezionare la lingua di ogni documento.

  4. Nel riquadro a destra, aggiungere il tipo di entità al progetto in modo da iniziare a etichettare i dati con il tipo di entità.

  5. Sono disponibili due opzioni per etichettare un documento:

    Opzione Descrizione
    Etichettare usando un pennello Selezionare l'icona pennello accanto a un tipo di entità nel riquadro a destra, quindi evidenziare il testo nel documento da annotare con questo tipo di entità.
    Etichettare usando un menu Evidenziare la parola da etichettare come entità per visualizzare un menu. Selezionare il tipo di entità da assegnare per l’entità.

    Lo screenshot seguente mostra l'etichettatura effettuata con un pennello.

    Screenshot che mostra le opzioni di etichettatura offerte in Custom NER.

  6. Nel riquadro a destra sotto il pivot Etichette, è possibile trovare tutti i tipi di entità nel progetto e il numero di istanze etichettate per ogni entità.

  7. Nella sezione inferiore del riquadro a destra è possibile aggiungere il documento visualizzato al set di training o al set di test. Per impostazione predefinita, tutti i documenti vengono aggiunti al set di training. Consultare altre informazioni sui set di training e di test e su come vengono usati per il training e la valutazione del modello.

    Suggerimento

    Se si prevede di usare la suddivisione automatica dei dati, usare l'opzione predefinita per assegnare tutti i documenti nel set di training.

  8. Nel pivot Distribuzione, è possibile visualizzare la distribuzione tra set di training e di test. Sono disponibili due opzioni di visualizzazione:

    • Istanze totali, in cui è possibile visualizzare il numero di tutte le istanze etichettate di un tipo di entità specifico.
    • Documenti con almeno un'etichetta, in cui ogni documento viene conteggiato se contiene almeno un'istanza etichettata di questa entità.
  9. Durante l'etichettatura, le modifiche verranno sincronizzate periodicamente; se non sono ancora state salvate, verrà visualizzato un avviso nella parte superiore della pagina. Per il salvataggio manuale, selezionare il pulsante Salva etichette nella parte inferiore della pagina.

Rimuovere etichette

Per rimuovere un'etichetta

  1. Selezionare l'entità da cui rimuovere un'etichetta.
  2. Scorrere il menu visualizzato e selezionare Rimuovi etichetta.

Eliminare entità

Per eliminare un'entità, selezionare l'icona di eliminazione accanto all'entità da rimuovere. L'eliminazione di un’entità rimuoverà tutte le relative istanze etichettate dal set di dati.

Passaggi successivi

Dopo aver etichettato i dati, è possibile iniziare il training di un modello in modo che apprenda in base ai dati.