Definizioni e termini di Riconoscimento entità denominata personalizzata

Questo articolo fornisce informazioni su alcune definizioni e termini che possono essere riscontrati quando si usa il riconoscimento di entità denominate personalizzate.

Entità

Un'entità è un intervallo di testo che indica un determinato tipo di informazioni. L'intervallo di testo può essere costituito da una o più parole. Nell'ambito del riconoscimento di entità denominate personalizzate, le entità rappresentano le informazioni che l'utente desidera estrarre dal testo. Gli sviluppatori contrassegnano le entità all'interno dei dati con le entità necessarie prima di passarle al modello per il training. Ad esempio "Numero di fattura", "Data di inizio", "Numero di spedizione", "Luogo di nascita", "Città di origine", "Nome fornitore" o "Indirizzo client".

Ad esempio, nella frase "John ha preso in prestito 25.000 USD da Fred.”, le entità potrebbero essere:

Nome/tipo di entità Entità
Nome del debitore John
Nome del prestatore Fred
Importo del prestito 25.000 USD

Punteggio F1

Il punteggio F1 è una funzione di Precisione e Richiamo. È necessario quando l’obiettivo è bilanciare precisione e richiamo.

Modello

Un modello è un oggetto sottoposto a training per l’esecuzione di una determinata attività, in questo caso il riconoscimento di entità personalizzate. I modelli vengono sottoposti a training fornendo dati etichettati da cui apprendere in modo che possano essere usati in un secondo momento per le attività di riconoscimento.

  • Il training del modello è il processo durante il quale viene insegnato al modello cosa estrarre in base ai dati etichettati.
  • La valutazione del modello è il processo che avviene subito dopo il training e che consente di valutare le prestazioni del modello.
  • La distribuzione è il processo che consiste nell’assegnare un modello a una distribuzione per renderlo disponibile all'uso tramite l'API di stima.

Precisione

Misura la precisione o l'accuratezza del modello. È il rapporto tra i positivi identificati correttamente (veri positivi) e tutti i positivi identificati. La metrica Precision rivela quante delle classi stimate sono etichettate correttamente.

Project

Un progetto è un'area di lavoro per la creazione di modelli di Machine Learning personalizzati in base ai dati. Il progetto è accessibile solo all'utente e ad altri utenti che hanno accesso alla risorsa di Azure in uso. Come prerequisito per la creazione di un progetto di estrazione di entità personalizzate, è necessario connettere la propria risorsa a un account di archiviazione con un proprio set di dati al momento della creazione di un nuovo progetto. Il progetto include automaticamente tutti i file .txt disponibili nel contenitore.

All’interno del progetto è possibile effettuare le operazioni seguenti:

  • Etichettare i dati: è il processo di etichettatura dei dati che consente al modello di apprendere cosa estrarre durante il training.
  • Creare ed eseguire il training del modello: è il passaggio principale del progetto in cui il modello inizia ad apprendere dai dati etichettati.
  • Visualizzare i dettagli della valutazione del modello: esaminare le prestazioni del modello per decidere se ci sono margini di miglioramento o se i risultati sono soddisfacenti.
  • Distribuzione: dopo aver esaminato le prestazioni del modello e aver stabilito che è adatto all’uso nel proprio ambiente, è necessario assegnarlo a una distribuzione per poterlo usare. L'assegnazione di un modello a una distribuzione consente di renderlo disponibile per l'uso tramite l’API di stima.
  • Test del modello: dopo aver distribuito il modello, testare la distribuzione in Language Studio per determinare come verrà eseguito nell'ambiente di produzione.

Richiamo

Misura la capacità del modello di stimare le classi positive effettive. È il rapporto tra i veri positivi stimati e ciò che è stato effettivamente contrassegnato. La metrica di richiamo indica il numero di classi stimate che sono corrette.

Passaggi successivi