Modello neurale personalizzato di Document Intelligence

Articolo
10/16/2024

Importante

Le versioni di anteprima pubblica di Informazioni sui documenti consentono l'accesso anticipato alle funzionalità in fase di sviluppo attivo. Le funzionalità, gli approcci e i processi possono cambiare prima della disponibilità generale, a seconda del feedback degli utenti.
Per impostazione predefinita, la versione di anteprima pubblica delle librerie client di Intelligence dei documenti è la versione dell'API REST 2024-07-31-preview.
La versione di anteprima pubblica 2024-07-31-preview è al momento disponibile solo nelle aree di Azure seguenti. Si noti che il modello di generazione personalizzata (estrazione di campi di documento) in Studio AI è disponibile solo nell'area Stati Uniti centro-settentrionali:
- Stati Uniti orientali
- Stati Uniti occidentali 2
- Europa occidentale
- Stati Uniti centro-settentrionali

Questo contenuto si applica a: v4.0 (anteprima) | Versioni precedenti: v3.1 (disponibilità generale) v3.0 (disponibilità generale)

Questo contenuto si applica a: v3.1 (disponibilità generale) | Ultima versione: v4.0 (anteprima) | Versioni precedenti: v3.0

Questo contenuto si applica a: v3.0 (disponibilità generale) | Ultime versioni: v4.0 (anteprima) v3.1

I modelli di documento neurali personalizzati, o modelli neurali, sono un tipo di modello di Deep Learning che combina le funzionalità di layout e lingua per estrarre in modo accurato i campi etichettati dai documenti. Il training del modello neurale personalizzato di base viene eseguito su vari tipi di documento che lo rendono adatto per l'estrazione di campi da documenti strutturati e semistrutturati. I modelli neurali personalizzati sono disponibili nei modelli v3.0 e versioni successive. La tabella seguente elenca i tipi di documento comuni per ogni categoria:

Documenti	Esempi
dati strutturati	sondaggi, questionari
dati semistrutturati	fatture, ordini d'acquisto

I modelli neurali personalizzati condividono lo stesso formato di etichettatura e la stessa strategia dei modelli personalizzati. Attualmente i modelli neurali personalizzati supportano solo un sottoinsieme dei tipi di campo supportati dai modelli personalizzati.

Funzionalità dei modelli

Importante

A partire dalla versione dell'API 2024-02-29-preview i modelli neurali personalizzati aggiungono il supporto per i campi sovrapposti e l'attendibilità delle celle delle tabelle.

I modelli neurali personalizzati supportano attualmente coppie chiave-valore, segni di selezione e campi strutturati (tabelle).

Campi del modulo	Opzioni di selezione	Campi tabulari	Firma	Etichettatura di aree	Campi sovrapposti
Supportata	Supportato	Supportata	Non supportato	Supportato ¹	Supportato ²

¹ Le etichette di area nei modelli neurali personalizzati usano i risultati dell'API Layout per l'area specificata. Questa funzionalità è diversa dai modelli in cui, se non è presente alcun valore, il testo viene generato in fase di training.
² I campi sovrapposti sono supportati a partire dalla versione dell'API REST 2024-02-29-preview. I campi sovrapposti presentano alcuni limiti. Per altre informazioni, vedere campi sovrapposti.

Modalità compilazione

L'operazione Build supporta i modelli personalizzati modello e neurale. Le versioni precedenti dell'API REST e delle librerie client supportano solo una singola modalità di compilazione ora nota come modalità modello.

I modelli neurali supportano documenti con le stesse informazioni, ma con strutture di pagina diverse. Gli esempi di questi documenti includono moduli W2 degli Stati Uniti, che condividono le stesse informazioni, ma possono variare in aspetto tra le aziende. Per altre informazioni, vedere Modalità di compilazione di modelli personalizzati.

Campi sovrapposti

Con il rilascio delle versioni 2024-02-29-preview e successive dell'API, nei modelli neurali personalizzati è stato aggiunto il supporto per campi sovrapposti:

Campi sovrapposti

Con il rilascio delle versioni 2024-07-31-preview e successive dell'API, nei modelli neurali personalizzati verrà aggiunto il supporto per campi sovrapposti:

Per usare i campi sovrapposti, il set di dati deve contenere almeno un campione con la sovrapposizione prevista. Per etichettare una sovrapposizione, usare l’etichettatura di aree per designare ogni intervallo di contenuto (con la sovrapposizione) per ogni campo. L'etichettatura di una sovrapposizione con la selezione dei campi (evidenziando un valore) ha esito negativo in Studio perché l'etichettatura dell'area è l'unico strumento di etichettatura supportato per indicare sovrapposizioni di campi. Il supporto per la sovrapposizione include:

Sovrapposizione completa. Lo stesso set di token viene etichettato per due campi diversi.
Sovrapposizione parziale. Alcuni token appartengono a entrambi i campi, ma esistono token che fanno solo parte di un campo o dell'altro.

I campi sovrapposti presentano alcuni limiti:

Qualsiasi token o parola può essere etichettata solo in due campi.
i campi sovrapposti in una tabella non possono estendersi sulle righe della tabella.
I campi sovrapposti possono essere riconosciuti solo se almeno un esempio nel set di dati contiene etichette sovrapposte per tali campi.

Per usare campi sovrapposti, etichettare il set di dati con le sovrapposizioni ed eseguire il training del modello con la versione dell'API 2024-02-29-preview o versione successiva.

Campi tabulari

Con il rilascio delle versioni API 2022-06-30-preview e successive, i modelli neurali personalizzati supportano campi tabulari (tabelle) per analizzare i dati di tabella, riga e cella con maggiore attendibilità:

I modelli sottoposti a training con l'API versione 2022-06-30-preview o successiva accetteranno etichette di campi tabulari.
I documenti analizzati con i modelli neurali personalizzati usando l'API versione 2022-06-30-preview o successiva produrranno campi tabulari aggregati tra le tabelle.
I risultati sono disponibili nella matrice documents dell'oggetto analyzeResult restituita dopo un'operazione di analisi.

I campi tabulari supportano tabelle tra pagine per impostazione predefinita:

Per etichettare una tabella che si estende su più pagine, etichettare ogni riga tra le diverse pagine di una singola tabella.
Come procedura consigliata, assicurarsi che il set di dati contenga alcuni esempi delle varianti previste. Ad esempio, includi esempi in cui l'intera tabella si trova su una singola pagina e in cui le tabelle si estendono su due o più pagine.

I campi tabulari sono utili anche quando si estraggono informazioni ripetute all'interno di un documento non riconosciuto come tabella. Ad esempio, una sezione ripetuta di esperienze lavorative in un curriculum può essere etichettata ed estratta come campo tabulare.

I campi tabulari forniscono attendibilità tra tabella, riga e cella a partire dall'API 2024-02-29-preview:

Le tabelle fisse o dinamiche aggiungono il supporto dell’attendibilità per gli elementi seguenti:
- Attendibilità delle tabelle, misura dell'accuratezza dell'intera tabella.
- Attendibilità delle righe, misura di riconoscimento di una singola riga.
- Attendibilità delle celle, misura di riconoscimento di una singola cella.
L'approccio consigliato consiste nell'esaminare l'accuratezza in modo dall'alto verso il basso a partire prima dalla tabella, seguita dalla riga e quindi dalla cella. Vedere i punteggi di attendibilità e accuratezza per altre informazioni sull’attendibilità tra tabella, riga e cella.

Lingue e impostazioni locali supportate

Vedere Lingue supportate - modelli personalizzati per un elenco completo delle lingue supportate.

Aree geografiche supportate

A partire dal 18 ottobre 2022, il training del modello neurale personalizzato di Document Intelligence sarà disponibile solo nelle aree di Azure seguenti fino a ulteriore avviso:

Australia orientale
Brasile meridionale
Canada centrale
India centrale
Stati Uniti centrali
Asia orientale
Stati Uniti orientali
Stati Uniti Orientali 2
Francia centrale
Giappone orientale
Stati Uniti centro-meridionali
Asia sud-orientale
Regno Unito meridionale
Europa occidentale
Stati Uniti occidentali 2
US Gov Arizona
US Gov Virginia

Suggerimento

Un modello sottoposto a training in una delle aree selezionate elencate può essere copiato in qualsiasi altra area e usato di conseguenza.

Usare l'API REST o Document Intelligence Studio per copiare un modello in un'altra area.

Suggerimento

Un modello sottoposto a training in una delle aree selezionate elencate può essere copiato in qualsiasi altra area e usato di conseguenza.

Usare l'API REST o Document Intelligence Studio per copiare un modello in un'altra area.

Suggerimento

Un modello sottoposto a training in una delle aree selezionate elencate può essere copiato in qualsiasi altra area e usato di conseguenza.

Usare l'API REST o Document Intelligence Studio per copiare un modello in un'altra area.

Requisiti di input

Per risultati ottimali, fornire una foto chiara o una scansione di alta qualità per ogni documento.

Formati di file supportati:

Modello	PDF	Immagine: jpeg/`jpg`, `png`, `bmp`, `tiff`, `heif`	Microsoft Office: Word (docx), Excel (xlsx), PowerPoint (pptx), e HTML
Lettura	✔	✔	✔
Layout	✔	✔	✔ (2024-02-29-anteprima, 2023-10-31-anteprima o versione successiva)
Documento generale	✔	✔
Predefinito	✔	✔
Neurale personalizzato	✔	✔

✱ i file di Microsoft Office non sono attualmente supportati per altri modelli o versioni.

Per i formati PDF e TIFF, possono essere elaborate fino a 2.000 pagine (con una sottoscrizione di livello gratuito vengono elaborate solo le prime due pagine).
La dimensione del file per l'analisi dei documenti è di 500 MB per il livello a pagamento (S0) e 4 MB per il livello gratuito (F0).
Per le immagini, le dimensioni devono essere comprese tra 50 x 50 pixel e 10.000 x 10.000 pixel.
Se i file PDF sono bloccati da password, è necessario rimuovere il blocco prima dell'invio.
L'altezza minima del testo da estrarre è di 12 pixel per un'immagine 1024 x 768 pixel. Queste dimensioni corrispondono approssimativamente a un testo con dimensioni di 8 punti e 150 punti per pollice.
Per il training di modelli personalizzati, il numero massimo di pagine per i dati di training è 500 per il modello personalizzato e 50.000 per il modello neurale personalizzato.
Per il training di modelli di estrazione personalizzati, le dimensioni totali dei dati di training sono di 50 MB per il modello e 1G MB per il modello neurale.
Per il training del modello di classificazione personalizzato, le dimensioni totali dei dati di training sono 1GB con un massimo di 10.000 pagine.

Procedure consigliate

I modelli neurali personalizzati differiscono dai modelli personalizzati in diversi modi. Il modello personalizzato si basa su un modello visivo coerente per estrarre i dati etichettati. I modelli neurali personalizzati supportano campi strutturati e semistrutturati. Per scegliere tra i tipi di modello, iniziare con un modello neurale e testarlo per determinare se supporta le proprie esigenze funzionali.

Gestire le variazioni: i modelli neurali personalizzati possono generalizzare in formati diversi di un singolo tipo di documento. Come procedura consigliata, creare un singolo modello per tutte le varianti di un tipo di documento. Aggiungere almeno cinque esempi etichettati per ognuna delle diverse varianti al set di dati di training.
Denominazione dei campi: quando si etichettano i dati, l'etichettatura del campo pertinente per il valore migliora l'accuratezza delle coppie chiave-valore estratte. Ad esempio, per un valore di campo contenente l'ID fornitore, è consigliabile denominare il campo supplier_id. I nomi dei campi devono essere definiti nella lingua del documento.
Etichettatura di valori contigui: i token/parole di valori di un campo devono essere:
- In una sequenza consecutiva in ordine di lettura naturale senza interleaving con altri campi
- In un'area che non copre altri campi
Dati rappresentativi: i valori nei casi di training devono essere diversi e rappresentativi. Ad esempio, se un campo è denominato date, i valori per questo campo devono essere di tipo data. Il valore sintetico come una stringa casuale può influire sulle prestazioni del modello.

Limitazioni correnti

Il modello neurale personalizzato non riconosce i valori divisi tra i limiti della pagina.
I tipi di campo non supportati dai modelli neurali personalizzati vengono ignorati se si utilizza un set di dati etichettato per i modelli personalizzati viene usato per eseguire il training di un modello neurale personalizzato.
I modelli neurali personalizzati sono limitati a 20 operazioni di compilazione al mese. Aprire una richiesta di supporto se è necessario aumentare il limite. Per altre informazioni, vedere Quote e limiti del servizio Document Intelligence.

Training a model

I modelli neurali personalizzati sono disponibili nei modelli v3.0 e versioni successive.

Tipo documento	REST API	SDK	Etichettare e testare i modelli
Documento personalizzato	Informazioni sui documenti 3.1	SDK di Informazioni sui documenti	Document Intelligence Studio

L'operazione Build per eseguire il training del modello supporta una nuova proprietà buildMode. Per eseguire il training di un modello neurale personalizzato, impostare buildMode su neural.

https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

https://{endpoint}/formrecognizer/documentModels:build?api-version=v3.1:2023-07-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

https://{endpoint}/formrecognizer/documentModels/{modelId}:copyTo?api-version=2022-08-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Fatturazione

A partire dalla versione 2024-07-31-preview, è possibile eseguire il training del modello neurale personalizzato per durate più lunghe rispetto ai 30 minuti standard. Le versioni precedenti sono limitate a 30 minuti per ogni istanza di training, con un totale di 20 istanze di training gratuite al mese. Ora con 2024-07-31-preview è possibile ricevere 10 ore di training del modello gratuito ed eseguire il training di un modello per un periodo di 10 ore.

È possibile scegliere di dedicare tutte le 10 ore gratuite a una singola compilazione di modello con un set di dati di grandi dimensioni o di usarle in più compilazioni modificando il valore di durata massima per l'operazione di build specificando maxTrainingHours:

POST https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  ...,
  "maxTrainingHours": 10
}

Importante

Se si desidera eseguire il training di modelli neurali aggiuntivi o di eseguire il training di modelli per un periodo di tempo più lungo che supera le 10 ore, si applicano gli addebiti per la fatturazione. Per informazioni dettagliate sugli addebiti per la fatturazione, vedere la pagina dei prezzi.
È possibile acconsentire esplicitamente a questo servizio di formazione a pagamento impostando maxTrainingHours sul numero massimo di ore desiderato. Le chiamate API senza budget ma con maxTrainingHours impostato su oltre 10 ore avranno esito negativo.
Poiché ogni compilazione richiede tempo diverso a seconda del tipo e delle dimensioni del set di dati di training, la fatturazione viene calcolata per il tempo effettivo dedicato al training del modello neurale, con un minimo di 30 minuti per ogni processo di training.
Questa funzionalità di training a pagamento consente di eseguire il training di set di dati di dimensioni maggiori per durate più lunghe con flessibilità nelle ore di training.


GET /documentModels/{myCustomModel}
{
  "modelId": "myCustomModel",
  "trainingHours": 0.23,
  "docTypes": { ... },
  ...
}

Nota

Per le versioni di Informazioni sui documenti v3.1 (2023-07-31) e v3.0 (2022-08-31), il training a pagamento del modello neurale personalizzato non è abilitato. Per le due versioni precedenti, si avranno un massimo di 30 minuti di durata del training per modello. Se si vuole eseguire il training di più di 20 istanze del modello, è possibile creare un ticket di supporto di Azure per aumentare il limite di training.

Fatturazione

Per le versioni di Informazioni sui documenti v3.1 (2023-07-31) and v3.0 (2022-08-31), si ricevono al massimo 30 minuti di durata del training per modello e un massimo di 20 training gratuiti al mese. Se si vuole eseguire il training di più di 20 istanze del modello, è possibile creare un ticket di supporto di Azure per aumentare il limite di training. Per i ticket di supporto di Azure immettere nel campo summary: Increase Document Intelligence custom neural training (TPS) limit.

Importante

Quando si aumenta il limite di training, si noti che 2 sessioni di training del modello neurale personalizzato verranno considerate come 1 ora di training. Per altre informazioni sui prezzi per aumentare il numero di sessioni di training, vedere la pagina dei prezzi.
Il ticket di supporto di Azure per l'aumento del limite di training può essere applicato solo a livello di risorsa, non a livello di sottoscrizione. È possibile richiedere un aumento del limite di training per una singola risorsa di Informazioni sui documenti specificando l'ID risorsa e l'area nel ticket di supporto.

Se si desidera eseguire il training dei modelli per più di 30 minuti, è supportato il training a pagamento con la versione più recente, v4.0 (2024-07-31-preview). Usando la versione più recente, è possibile eseguire il training del modello per una durata più lunga per elaborare documenti di dimensioni maggiori. Per altre informazioni sul training a pagamento, vedere Fatturazione v4.0.

Fatturazione

Importante

Quando si aumenta il limite di training, si noti che 2 sessioni di training del modello neurale personalizzato verranno considerate come 1 ora di training. Per altre informazioni sui prezzi per aumentare il numero di sessioni di training, vedere la pagina dei prezzi.
Il ticket di supporto di Azure per l'aumento del limite di training può essere applicato solo a livello di risorsa, non a livello di sottoscrizione. È possibile richiedere un aumento del limite di training per una singola risorsa di Informazioni sui documenti specificando l'ID risorsa e l'area nel ticket di supporto.

Se si desidera eseguire il training dei modelli per più di 30 minuti, è supportato il training a pagamento con la versione più recente, v4.0 (2024-07-31). Usando la versione più recente, è possibile eseguire il training del modello per una durata più lunga per elaborare documenti di dimensioni maggiori. Per altre informazioni sul training a pagamento, vedere Fatturazione v4.0.

Passaggi successivi

Informazioni su come creare e comporre modelli personalizzati:

Creare un modello personalizzatoComporre modelli personalizzati

Condividi tramite

Modello neurale personalizzato di Document Intelligence

Funzionalità dei modelli

Modalità compilazione

Campi sovrapposti

Campi sovrapposti

Campi tabulari

Lingue e impostazioni locali supportate

Aree geografiche supportate

Requisiti di input

Procedure consigliate

Limitazioni correnti

Training a model

Fatturazione

Fatturazione

Fatturazione

Passaggi successivi

Commenti e suggerimenti

Risorse aggiuntive