Funzionalità dei componenti aggiuntivi di Document Intelligence

Importante

  • Le versioni di anteprima pubblica di Informazioni sui documenti consentono l'accesso anticipato alle funzionalità in fase di sviluppo attivo. Le funzionalità, gli approcci e i processi possono cambiare prima della disponibilità generale, a seconda del feedback degli utenti.
  • Per impostazione predefinita, la versione di anteprima pubblica delle librerie client di Intelligence dei documenti è la versione dell'API REST 2024-07-31-preview.
  • La versione di anteprima pubblica 2024-07-31-preview è al momento disponibile solo nelle aree di Azure seguenti. Si noti che il modello di generazione personalizzata (estrazione di campi di documento) in Studio AI è disponibile solo nell'area Stati Uniti centro-settentrionali:
    • Stati Uniti orientali
    • Stati Uniti occidentali 2
    • Europa occidentale
    • Stati Uniti centro-settentrionali

Questo contenuto si applica a:segno di spunta v4.0 (anteprima) | Versioni precedenti: blue-checkmark v3.1 (disponibilità generale)

Questo contenuto si applica a: segno di spunta v3.1 (disponibilità generale) | Ultime versioni: segno di spunta viola v4.0 (anteprima)

Nota

Le funzionalità dei componenti aggiuntivi sono disponibili all'interno di tutti i modelli, ad eccezione del modello del biglietto da visita.

Funzionalità

Document Intelligence supporta funzionalità di analisi più sofisticate e modulari. Usare le funzionalità del componente aggiuntivo per estendere i risultati per includere altre funzionalità estratte dai documenti. Alcune funzionalità del componente aggiuntivo comportano un costo aggiuntivo. Queste funzionalità facoltative possono essere abilitate e disabilitate a seconda dello scenario di estrazione dei documenti. Per abilitare una funzionalità, aggiungere il nome della funzionalità associata alla proprietà della stringa di query features. È possibile abilitare più funzionalità del componente aggiuntivo in una richiesta fornendo un elenco delimitato da virgole di funzionalità. Le funzionalità aggiuntive seguenti sono disponibili per 2023-07-31 (GA) e per le versioni successive.

Per 2024-07-31-preview il rilascio e versioni successive, il modello Read supporta l'output PDF ricercabile:

Nota

  • Non tutte le funzionalità dei componenti aggiuntivi sono supportate da tutti i modelli. Per altre informazioni, vedere l’estrazione dei dati del modello.

  • Le funzionalità dei componenti aggiuntivi non sono attualmente supportate per i tipi di file di Microsoft Office.

Document Intelligence supporta funzionalità facoltative che possono essere abilitate e disabilitate, a seconda dello scenario di estrazione dei documenti. Le funzionalità aggiuntive seguenti sono disponibili per 2023-10-31-preview e per le versioni successive:

Nota

L'implementazione dei campi di query nell'API 2023-10-30-preview è diversa dall'ultima versione di anteprima. La nuova implementazione è meno costosa e funziona bene con i documenti strutturati.

Disponibilità della versione

Funzionalità del componente aggiuntivo Componente aggiuntivo/gratuito 2024-02-29-preview 2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
Estrazione delle proprietà dei caratteri Componente aggiuntivo ✔️ ✔️ n/d n/d
Estrazione di formule Componente aggiuntivo ✔️ ✔️ n/d n/d
Estrazione ad alta risoluzione Componente aggiuntivo ✔️ ✔️ n/d n/d
Estrazione del codice a barre Gratuito ✔️ ✔️ n/d n/d
Rilevamento lingua Gratuito ✔️ ✔️ n/d n/d
Coppie chiave-valore Gratuito ✔️ n/d n/d n/d
Campi di query Componente aggiuntivo* ✔️ n/d n/d n/d

✱ Componente aggiuntivo - I campi di query vengono distribuiti in modo diverso rispetto alle altre funzionalità del componente aggiuntivo. Per informazioni dettagliate, vedere i prezzi.

Formati di file supportati

  • PDF

  • Immagini: JPEG/JPG, PNG, BMP, TIFF, HEIF

.✱ i file di Microsoft Office non sono attualmente supportati.

Estrazione ad alta risoluzione

Il riconoscimento di testo piccolo in documenti di grandi dimensioni, ad esempio disegni di progettazione, è un'attività complessa. Spesso il testo è combinato con altri elementi grafici e ha tipi di carattere, dimensioni e orientamenti variabili. Inoltre, il testo può essere suddiviso in parti separate o collegate con altri simboli. Document Intelligence supporta ora l'estrazione di contenuto da questi tipi di documenti con la funzionalità ocr.highResolution. È possibile estrarre contenuto con una qualità migliore da documenti A1/A2/A3 abilitando questa funzionalità aggiuntiva.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution

Estrazione di formule

La funzionalità ocr.formula estrae tutte le formule identificate, ad esempio equazioni matematiche, nella raccolta formulas come oggetto di primo livello in content. All'interno di content, le formule rilevate vengono rappresentate come :formula:. Ogni voce di questa raccolta rappresenta una formula che include il tipo di formula, come inline o display, e la relativa rappresentazione LaTeX come value insieme alle coordinate polygon. Inizialmente, le formule vengono visualizzate alla fine di ogni pagina.

Nota

Il punteggio confidence è hardcoded.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas

Estrazione delle proprietà dei tipi di carattere

La funzionalità ocr.font estrae tutte le proprietà del tipo di carattere del testo estratto nella raccolta styles come oggetto di primo livello in content. Ogni oggetto stile specifica una singola proprietà del tipo di carattere, l'intervallo di testo a cui si applica e il punteggio di attendibilità corrispondente. La proprietà style esistente viene estesa con più proprietà dei tipi di carattere, ad esempio similarFontFamily per il tipo di carattere del testo, fontStyle per stili come corsivo e normale, fontWeight per il grassetto o normale, color per il colore del testo e backgroundColor per il colore del riquadro delimitatore del testo.

  {your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont
  {your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont

Estrazione delle proprietà del codice a barre

La funzionalità ocr.barcode estrae tutti i codici a barre identificati di testo nella raccolta barcodes come oggetto di primo livello in content. All'interno di content i codici a barre rilevati vengono rappresentati come :barcode:. Ogni voce di questa raccolta rappresenta un codice a barre e include il tipo di codice a barre come kind e il contenuto di codice a barre incorporato come value insieme alle coordinate polygon. Inizialmente, i codici a barre vengono visualizzati alla fine di ogni pagina. Il confidence è hardcoded per come 1.

Tipi di codice a barre supportati

Tipo di codice a barre Esempio
QR Code Screenshot del codice a matrice.
Code 39 Screenshot del codice 39.
Code 93 Screenshot del codice 93.
Code 128 Screenshot del codice 128.
UPC (UPC-A & UPC-E) Screenshot dell'UPC.
PDF417 Screenshot di PDF417.
EAN-8 Screenshot del codice a barre European Article Number 8.
EAN-13 Screenshot del codice a barre European Article Number 13.
Codabar Screenshot della Codabar.
Databar Screenshot della barra dei dati.
Databar Esteso Screenshot della barra dei dati espansa.
ITF Screenshot del codice a barre interleaved two-of-five (ITF).
Data Matrix Screenshot della matrice di dati.
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes

Rilevamento lingua

L'aggiunta della funzionalità di languages alla richiesta di analyzeResult consente di fare una stima della lingua primaria rilevata per ogni riga di testo insieme al confidence nella raccolta languages in analyzeResult.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages

PDF ricercabile

La funzionalità PDF ricercabile consente di convertire un PDF analogico, ad esempio file PDF a immagini digitalizzate, in un PDF con testo incorporato. Il testo incorporato consente la ricerca di testo avanzato all'interno del contenuto estratto del PDF sovrapponendo le entità di testo rilevate sopra i file di immagine.

Importante

  • Attualmente, la funzionalità PDF ricercabile è supportata solo dal modello OCR di lettura prebuilt-read. Quando si usa questa funzionalità, specificare modelId come prebuilt-read, perché altri tipi di modello restituiranno un errore per questa versione di anteprima.
  • Il PDF ricercabile è incluso nel modello 2024-07-31-preview prebuilt-read senza costi di utilizzo per l'uso generale dei PDF.

Usare un PDF ricercabile

Per usare il PDF ricercabile, effettuare una richiesta POST usando l'operazione Analyze e specificare il formato di output come pdf:


POST /documentModels/prebuilt-read:analyze?output=pdf
{...}
202

Una volta completata l'operazione Analyze, effettuare una richiesta GET per recuperare i risultati dell'operazione Analyze.

Al termine, il PDF può essere recuperato e scaricato come application/pdf. Questa operazione consente il download diretto della forma di testo incorporata del PDF anziché del codice JSON con codifica Base64.


// Monitor the operation until completion.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}
200
{...}

// Upon successful completion, retrieve the PDF as application/pdf.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
200 OK
Content-Type: application/pdf

Coppie chiave-valore

Nelle versioni precedenti dell'API, il prebuilt-document modello ha estratto coppie chiave-valore da moduli e documenti. Con l'aggiunta della funzionalità di keyValuePairs al layout predefinito, il modello di layout produce ora gli stessi risultati.

Le coppie chiave-valore sono intervalli specifici all'interno del documento che identificano un'etichetta o una chiave e la risposta o il valore associato. In un modulo strutturato, queste coppie possono essere l'etichetta e il valore immessi dall'utente per tale campo. In un documento non strutturato, possono essere la data di esecuzione di un contratto o possono essere basate sul testo di un paragrafo. Il modello di intelligenza artificiale viene sottoposto a training per estrarre chiavi e valori identificabili in base a un'ampia gamma di tipi, formati e strutture di documenti.

Le chiavi possono esistere anche in isolamento quando il modello rileva che esiste una chiave senza alcun valore associato o quando vengono elaborati campi facoltativi. Ad esempio, un campo del secondo nome può essere lasciato vuoto in un modulo in alcuni casi. Le coppie chiave-valore sono intervalli di testo contenuti nel documento. Per i documenti in cui lo stesso valore viene descritto in modi diversi, ad esempio cliente/utente, la chiave associata è cliente o utente (in base al contesto).

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs

Campi di query

I campi di query sono una funzionalità del componente aggiuntivo per estendere lo schema estratto da qualsiasi modello predefinito o definire un nome di chiave specifico quando il nome della chiave è variabile. Per usare i campi di query, impostare le funzionalità su queryFields e fornire un elenco delimitato da virgole di nomi di campo nella proprietà queryFields.

  • Document Intelligence supporta ora le estrazioni di campi di query. Con l'estrazione dei campi di query, è possibile aggiungere campi al processo di estrazione usando una richiesta di query senza la necessità di aggiungere training.

  • Usare i campi di query quando è necessario estendere lo schema di un modello predefinito o personalizzato oppure è necessario estrarre alcuni campi con l'output del layout.

  • I campi di query sono una funzionalità di componente aggiuntivo Premium. Per ottenere risultati ottimali, definire i campi da estrarre usando le lettere maiuscole o le lettere pascal per i nomi di campo composti da più parole.

  • I campi di query supportano un massimo di 20 campi per richiesta. Se il documento contiene un valore per il campo, vengono restituiti il campo e il valore.

  • In questa versione è disponibile una nuova implementazione della funzionalità dei campi di query con prezzi inferiori rispetto all'implementazione precedente e dovrebbe essere convalidata.

Nota

L'estrazione dei campi di query di Document Intelligence Studio è attualmente disponibile con le API per i modelli predefiniti e layout 2024-02-29-preview 2023-10-31-preview e le versioni successive, ad eccezione dei modelli di US tax (W2, 1098 e 1099).

Estrazione di campi di query

Specificare i campi da estrarre e Document Intelligence analizzerà il documento di conseguenza. Ecco un esempio:

  • Se si elabora un contratto in Document Intelligence Studio, usare le versioni 2024-02-29-preview o 2023-10-31-preview:

    Screenshot del pulsante dei campi di query in Document Intelligence Studio.

  • È possibile passare un elenco di etichette di campo come Party1, Party2, TermsOfUse, PaymentTerms, PaymentDate e TermEndDate come parte della richiesta di analyze document.

    Screenshot della finestra di selezione dei campi di query in Document Intelligence Studio.

  • Document Intelligence è in grado di analizzare ed estrarre i dati dei campi e restituire i valori in un output JSON strutturato.

  • Oltre ai campi di query, la risposta include testo, tabelle, segni di selezione e altri dati pertinenti.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS

Passaggi successivi

Altre informazioni: Leggi modelloModello di Layout

Esempi di SDK: python