Modello di contratto di Document Intelligence

Importante

  • Le versioni di anteprima pubblica di Informazioni sui documenti consentono l'accesso anticipato alle funzionalità in fase di sviluppo attivo. Le funzionalità, gli approcci e i processi possono cambiare prima della disponibilità generale, a seconda del feedback degli utenti.
  • Per impostazione predefinita, la versione di anteprima pubblica delle librerie client di Intelligence dei documenti è la versione dell'API REST 2024-07-31-preview.
  • La versione di anteprima pubblica 2024-07-31-preview è al momento disponibile solo nelle aree di Azure seguenti. Si noti che il modello di generazione personalizzata (estrazione di campi di documento) in Studio AI è disponibile solo nell'area Stati Uniti centro-settentrionali:
    • Stati Uniti orientali
    • Stati Uniti occidentali 2
    • Europa occidentale
    • Stati Uniti centro-settentrionali

Questo contenuto si applica a:segno di spunta v4.0 (anteprima) | Versione precedenti: blue-checkmark v3.1 (disponibilità generale)

Questo contenuto si applica a: segno di spunta v3.1 (disponibilità generale) | Ultime versioni: purple-checkmark v4.0 (anteprima)

Il modello di contratto di Document Intelligence usa potenti funzionalità di riconoscimento ottico dei caratteri (OCR) per analizzare ed estrarre campi chiave e voci da un gruppo selezionato di entità contrattuali. I contratti possono essere di vari formati e qualità, tra cui immagini acquisite dal telefono, documenti digitalizzati e PDF digitali. L'API analizza il testo del documento, estrae le informazioni chiave, come le parti, la giurisdizione, l'ID contratto e il titolo. Restituisce quindi una rappresentazione di dati JSON strutturati. Il modello al momento supporta i formati di documenti in lingua inglese.

Elaborazione automatica dei contratti

L'elaborazione automatica dei contratti è il processo di estrazione dei campi chiave del contratto dai documenti. Il processo di analisi dei contratti è stato sempre eseguito manualmente e, di conseguenza, risulta molto dispendioso in termini di tempo. L'estrazione accurata dei dati chiave del contratto è in genere il primo e uno dei passaggi più critici del processo di automazione dei contratti.

Opzioni di sviluppo

Informazioni sui documenti v4.0 (2024-07-31-preview) supporta gli strumenti, le applicazioni e le librerie seguenti:

Funzionalità Risorse Model ID
Modello di contratto Document Intelligence Studio
API REST
C# SDK
Python SDK
Java SDK
JavaScript SDK
prebuilt-contract

Document Intelligence v3. 1 supporta gli strumenti, le applicazioni e le librerie seguenti:

Funzionalità Risorse Model ID
Modello di contratto Document Intelligence Studio
API REST
C# SDK
Python SDK
Java SDK
JavaScript SDK
prebuilt-contract

Document Intelligence v3.0 supporta gli strumenti, le applicazioni e le librerie seguenti:

Funzionalità Risorse Model ID
Modello di contratto Document Intelligence Studio
API REST
C# SDK
Python SDK
Java SDK
JavaScript SDK
prebuilt-contract

Requisiti di input

  • Formati di file supportati:

    Modello PDF Immagine:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
    Lettura
    Layout ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
    Documento generale
    Predefinito
    Estrazione personalizzata
    Classificazione personalizzata ✔ (2024-07-31-preview, 2024-02-29-preview)
  • Per risultati ottimali, fornire una foto chiara o una scansione di alta qualità per ogni documento.

  • Per i formati PDF e TIFF, possono essere elaborate fino a 2.000 pagine (con una sottoscrizione di livello gratuito vengono elaborate solo le prime due pagine).

  • Le dimensioni del file per l'analisi dei documenti sono di 500 MB per il livello a pagamento (S0) e 4 MB per il livello gratuito (F0).

  • Per le immagini, le dimensioni devono essere comprese tra 50 x 50 pixel e 10.000 x 10.000 pixel.

  • Se i file PDF sono bloccati da password, è necessario rimuovere il blocco prima dell'invio.

  • L'altezza minima del testo da estrarre è di 12 pixel per un'immagine 1024 x 768 pixel. Queste dimensioni corrispondono approssimativamente a un testo con dimensioni di 8 punti e 150 punti per pollice (DPI).

  • Per il training di modelli personalizzati, il numero massimo di pagine per i dati di training è 500 per il modello personalizzato e 50.000 per il modello neurale personalizzato.

    • Per il training di modelli di estrazione personalizzati, le dimensioni totali dei dati di training sono di 50 MB per il modello e 1 GB per il modello neurale.

    • Per il training del modello di classificazione personalizzato, le dimensioni totali dei dati di training sono 1 GB con un massimo di 10.000 pagine. Per 2024-07-31-preview e le versioni successive, le dimensioni totali dei dati di training sono 2 GB con un massimo di 10.000 pagine.

Provare l'estrazione dei dati dei documenti del contratto

Vedere in che modo i dati, incluse le informazioni sul cliente, i dettagli del fornitore e le voci, vengono estratti dai contratti. Sono necessarie le risorse seguenti:

  • Sottoscrizione di Azure: è possibile crearne una gratuitamente.

  • Istanza di Informazioni sui documenti nel portale di Azure. Per provare il servizio, è possibile usare il piano tariffario gratuito (F0). Dopo la distribuzione della risorsa, selezionare Vai alla risorsa per recuperare la chiave e l'endpoint.

Screenshot della posizione di chiavi ed endpoint nel portale di Azure.

Document Intelligence Studio

  1. Nella home page di Studio di Informazioni sui documenti selezionare Documenti fiscali.

  2. È possibile analizzare documenti fiscali di esempio o caricare i propri file.

  3. Selezionare il pulsante Esegui analisi e, se necessario, configurare Analizza opzioni:

    Screenshot del pulsanti Esegui analisi e delle opzioni di analisi in Document Intelligence Studio.

Lingue e impostazioni locali supportate

Per un elenco completo delle lingue supportate, vedere la pagina Relativa al supporto linguistico- modelli predefiniti.

Estrazione di campi

  • Per i campi di estrazione dei documenti supportati, fare riferimento alla pagina dello schema del modello di contratto nel repository di esempio GitHub.

  • Le coppie chiave-valore del contratto e le voci estratte si trovano nella sezione documentResults dell'output JSON.

Passaggi successivi