Estrazione di campi documento - Modello di intelligenza artificiale generativa personalizzato
Importante
- Le versioni di anteprima pubblica di Informazioni sui documenti consentono l'accesso anticipato alle funzionalità in fase di sviluppo attivo. Le funzionalità, gli approcci e i processi possono cambiare prima della disponibilità generale, a seconda del feedback degli utenti.
- La versione di anteprima pubblica delle librerie client di Informazioni sui documenti per impostazione predefinita è la versione dell'API REST 2024-07-31-preview ed è attualmente disponibile solo nelle aree di Azure seguenti.
- Stati Uniti orientali
- Stati Uniti centro-settentrionali
Il modello di estrazione dei campi dal documento (intelligenza artificiale generativa personalizzata) usa l'intelligenza artificiale generativa per estrarre campi specificati dall'utente dai documenti in un'ampia gamma di modelli visivi. Il modello di intelligenza artificiale generativa personalizzato combina la potenza della comprensione dei documenti con modelli di linguaggio di grandi dimensioni e il rigore e lo schema dalle funzionalità di estrazione personalizzate per creare un modello con accuratezza elevata in pochi minuti. Con questo tipo di modello generativo, è possibile iniziare con un singolo documento e passare attraverso il processo di aggiunta dello schema e creazione di modelli con un utilizzo minimo di etichette. Il modello generativo personalizzato consente agli sviluppatori e alle aziende di automatizzare facilmente i flussi di lavoro di estrazione dei dati con maggiore precisione e velocità per qualsiasi tipo di documento. Il modello di intelligenza artificiale generativa personalizzato eccelle nell'estrazione di campi semplici dai documenti senza esempi etichettati. Tuttavia, la fornitura di alcuni campioni etichettati migliora l'accuratezza dell'estrazione per campi complessi e campi definiti dall'utente come tabelle. È possibile usare l'API REST o le raccolte client per inviare un documento per l'analisi con una compilazione del modello e usare il processo di generazione personalizzato.
Vantaggi del modello di intelligenza artificiale generativa personalizzato
Etichettatura automatica. Utilizzare modelli linguistici di grandi dimensioni (LLM) ed estrarre campi specificati dall'utente per vari tipi di documento e modelli visivi.
Generalizzazione migliorata. Estrarre dati da dati non strutturati e modelli di documento diversi con maggiore accuratezza.
Risultati fondati. Localizzare i dati estratti nei documenti. I modelli generativi personalizzati rendono fondati i risultati, se applicabile, assicurandosi che la risposta venga generata dal contenuto e abilitano i flussi di lavoro di revisione umana.
Punteggi di attendibilità. Usare i punteggi di attendibilità per ogni campo estratto per filtrare i dati estratti di alta qualità, ottimizzare direttamente l'elaborazione dei documenti e ridurre al minimo i costi di revisione umana.
Casi d'uso comuni
Gestione del ciclo di vita dei contratti. Creare un modello generativo ed estrarre i campi, le clausole e gli obblighi da un'ampia gamma di tipi di contratto.
Richieste di prestito e mutuo. L'automazione del processo di domanda di prestito e mutuo consente alle banche, agli istituti di credito e alle entità governative di elaborare rapidamente l'applicazione di prestiti e mutui.
Servizi finanziari. Con il modello di intelligenza artificiale generativa personalizzato, analizzare documenti complessi come report finanziari e report di gestione degli asset.
Gestione spese. Le ricevute e le fatture di vari rivenditori e aziende devono essere analizzate per convalidare le spese. Il modello di intelligenza artificiale generativa personalizzato può estrarre le spese in formati e documenti diversi con modelli diversi.
Gestione del set di dati di training
Con gli altri modelli personalizzati, è necessario gestire il set di dati, aggiungere nuovi esempi ed eseguire il training del modello per migliorare l'accuratezza. Con il modello di intelligenza artificiale generativa personalizzato, i documenti etichettati vengono trasformati, crittografati e archiviati come parte del modello. Questo processo garantisce che il modello possa usare continuamente i campioni etichettati per migliorare la qualità di estrazione. Come con altri modelli personalizzati, i modelli vengono archiviati nell'archiviazione Microsoft ed è possibile eliminarli in qualsiasi momento.
Il servizio Informazioni sui documenti gestisce i set di dati, ma i documenti vengono archiviati e crittografati e vengono usati solo per migliorare i risultati del modello specifico. Una chiave gestita dal servizio può essere usata per crittografare i dati oppure è possibile usare facoltativamente la crittografia con una chiave gestita dal cliente. La modifica nella gestione e nel ciclo di vita del set di dati si applica solo ai modelli generativi personalizzati.
Funzionalità dei modelli
Il modello generativo personalizzato di estrazione dei campi supporta attualmente la tabella dinamica con 2024-07-31-preview
e i campi seguenti:
Campi del modulo | Opzioni di selezione | Campi tabulari | Firma | Etichettatura di aree | Campi sovrapposti |
---|---|---|---|---|---|
Supportata | Supportato | Supportata | Non supportato | Non supportato | Supportata |
Modalità compilazione
L'operazione build custom model
supporta i modelli modello, neurale e generativo, vedereModalità di compilazione modello personalizzato. Ecco le differenze nei tipi di modello:
I modelli di intelligenza artificiale generativa personalizzati possono elaborare documenti complessi con diversi formati, modelli di vario tipo e dati non strutturati.
I modelli neurali personalizzati supportano l'elaborazione complessa dei documenti e supportano anche una maggiore varianza nelle pagine per documenti strutturati e semistrutturati.
I modelli personalizzati si basano su modelli visivi coerenti, ad esempio questionari o candidature, per estrarre i dati etichettati.
Lingue e impostazioni locali supportate
La versione 2024-07-31-preview
del modello generativo personalizzato per l'estrazione dei campi supporta le impostazioni locali en-us. Per altre informazioni sul supporto linguistico, vedere Supporto per la lingua - modelli personalizzati.
Supporto di area
La versione 2024-07-31-preview
del modello generativo personalizzato di estrazione dei campi è disponibile solo nelle aree ‘Stati Uniti orientali’ e North Central US
.
Requisiti di input
Formati di file supportati:
Modello PDF Immagine: JPEG/JPG
,PNG
,BMP
,TIFF
,HEIF
Microsoft Office:
Word (DOCX
), Excel (XLSX
), PowerPoint (PPTX
), HTMLLettura ✔ ✔ ✔ Layout ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview) Documento generale ✔ ✔ Predefinito ✔ ✔ Estrazione personalizzata ✔ ✔ Classificazione personalizzata ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview) Per risultati ottimali, fornire una foto chiara o una scansione di alta qualità per ogni documento.
Per i formati PDF e TIFF, possono essere elaborate fino a 2.000 pagine (con una sottoscrizione di livello gratuito vengono elaborate solo le prime due pagine).
Le dimensioni del file per l'analisi dei documenti sono di 500 MB per il livello a pagamento (S0) e
4
MB per il livello gratuito (F0).Per le immagini, le dimensioni devono essere comprese tra 50 x 50 pixel e 10.000 x 10.000 pixel.
Se i file PDF sono bloccati da password, è necessario rimuovere il blocco prima dell'invio.
L'altezza minima del testo da estrarre è di 12 pixel per un'immagine 1024 x 768 pixel. Queste dimensioni corrispondono approssimativamente a un testo con dimensioni di
8
punti e 150 punti per pollice (DPI).Per il training di modelli personalizzati, il numero massimo di pagine per i dati di training è 500 per il modello personalizzato e 50.000 per il modello neurale personalizzato.
Per il training di modelli di estrazione personalizzati, le dimensioni totali dei dati di training sono di 50 MB per il modello e
1
GB per il modello neurale.Per il training del modello di classificazione personalizzato, le dimensioni totali dei dati di training sono
1
GB con un massimo di 10.000 pagine. Per 2024-07-31-preview e le versioni successive, le dimensioni totali dei dati di training sono2
GB con un massimo di 10.000 pagine.
Procedure consigliate
Dati rappresentativi. Usare documenti rappresentativi destinati alla distribuzione effettiva dei dati ed eseguire il training di un modello generativo personalizzato di alta qualità. Ad esempio, se il documento di destinazione include campi tabulari parzialmente compilati, aggiungere documenti di training costituiti da tabelle parzialmente riempite. In alternativa, se il campo ha il nome data, i valori per questo campo devono essere una data perché le stringhe casuali possono influire sulle prestazioni del modello.
Denominazione dei campi. Scegliere un nome di campo preciso che rappresenti i valori dei campi. Ad esempio, per un valore di campo contenente la data della transazione, prendere in considerazione la denominazione del campo come TransactionDate anziché
Date1
.Descrizione campo. Fornire informazioni più contestuali nella descrizione per chiarire il campo che deve essere estratto. Gli esempi includono la posizione nel documento, le potenziali etichette di campo a cui può essere associato e modi per distinguerlo altri termini che potrebbero essere ambigui.
Variante. I modelli generativi personalizzati possono essere generalizzati in diversi modelli di documento dello stesso tipo. Come procedura consigliata, creare un singolo modello per tutte le varianti di un tipo di documento. Per migliorare l'accuratezza e la coerenza del modello nella generazione o nell'elaborazione di documenti, includere un modello visivo per ogni tipo, in particolare quelli che richiedono formattazione e/o elementi strutturali specifici.
Indicazioni sul servizio
Il modello di anteprima generativa personalizzato non supporta attualmente l'estrazione di tabelle fisse e firme.
L'inferenza nello stesso documento potrebbe produrre risultati leggermente diversi tra le chiamate ed è una limitazione nota dei modelli
GPT
correnti.I punteggi di attendibilità per ogni campo possono variare. È consigliabile eseguire test con i dati rappresentativi per stabilire le soglie di attendibilità per lo scenario in uso.
Questa fondatezza, soprattutto per i campi tabulari, è difficile e potrebbe non essere perfetta in alcuni casi.
La latenza per documenti di grandi dimensioni è elevata ed è una limitazione nota nella versione di anteprima.
I modelli composti non supportano l'estrazione generativa personalizzata.
Training a model
I modelli generativi personalizzati sono disponibili con la versione 2024-07-31-preview
e i modelli successivi.
build operation
per eseguire il training del modello supporta la proprietà buildMode
, per eseguire il training di un modello generativo personalizzato, impostare buildMode
su generative
.
https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview
{
"modelId": "string",
"description": "string",
"buildMode": "generative",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
Passaggi successivi
- Informazioni su come creare modelli generativi personalizzati
- Altre informazioni sui modelli personalizzati