Competenza cognitiva Estrazione documenti
La competenza Estrazione documenti estrae il contenuto da un file all'interno della pipeline di arricchimento. Ciò consente di sfruttare il passaggio di estrazione dei documenti che normalmente si verifica prima dell'esecuzione del set di competenze con file che possono essere generati da altre competenze.
Nota
Questa competenza non è associata ai servizi di intelligenza artificiale di Azure e non ha requisiti chiave per i servizi di intelligenza artificiale di Azure. Questa competenza estrae testo e immagini. L'estrazione del testo è libera. L'estrazione di immagini viene rilevata da Ricerca di intelligenza artificiale di Azure. In un servizio di ricerca gratuito, il costo di 20 transazioni per indicizzatore al giorno viene assorbito in modo da poter completare guide introduttive, esercitazioni e piccoli progetti senza costi aggiuntivi. Per Basic, Standard e versioni successive, l'estrazione delle immagini è fatturabile.
@odata.type
Microsoft.Skills.Util.DocumentExtractionSkill
Formati di documento supportati
DocumentExtractionSkill può estrarre testo dai formati di documento seguenti:
- CSV (vedere Indicizzazione di BLOB CSV)
- EML
- EPUB
- GZ
- HTML
- JSON (vedere Indicizzazione di BLOB JSON)
- KML (XML per le rappresentazioni geografiche)
- Formati di Microsoft Office: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPTM, MSG (messaggi di posta elettronica di Outlook), XML (sia 2003 che 2006 WORD XML)
- Formati di documento aperti: ODT, ODS, ODP
- File di testo normale (vedere anche Indicizzazione di testo normale)
- RTF
- XML
- ZIP
Parametri della competenza
I parametri fanno distinzione tra maiuscole e minuscole.
Input | Valori consentiti | Descrizione |
---|---|---|
parsingMode |
default text json |
Impostare su default per l'estrazione di documenti da file che non sono testo o json puro. Per i file di origine che contengono contrassegna (ad esempio file PDF, HTML, RTF e Microsoft Office), usare il valore predefinito per estrarre solo il testo, meno qualsiasi linguaggio di markup o tag. Se parsingMode non è definito in modo esplicito, verrà impostato su default . Impostare su text se i file di origine sono TXT. Questa modalità di analisi migliora le prestazioni nei file di testo normale. Se i file includono markup, questa modalità manterrà i tag nell'output finale. Impostare su per json estrarre contenuto strutturato da file JSON. |
dataToExtract |
contentAndMetadata allMetadata |
Impostare su per contentAndMetadata estrarre tutti i metadati e il contenuto testuale da ogni file. Se dataToExtract non è definito in modo esplicito, verrà impostato su contentAndMetadata . Impostare su per allMetadata estrarre solo le proprietà dei metadati per il tipo di contenuto, ad esempio i metadati univoci solo per .png file. |
configuration |
Vedere di seguito. | Dizionario di parametri facoltativi che regolano la modalità di esecuzione dell'estrazione dei documenti. Vedere la tabella seguente per le descrizioni delle proprietà di configurazione supportate. |
Parametro di configurazione | Valori consentiti | Descrizione |
---|---|---|
imageAction |
none generateNormalizedImages generateNormalizedImagePerPage |
Impostare su none per ignorare le immagini incorporate o i file di immagine nel set di dati o se i dati di origine non includono file di immagine. Si tratta dell'impostazione predefinita. Per l'analisi OCR e delle immagini, impostare su generateNormalizedImages per fare in modo che la competenza crei una matrice di immagini normalizzate come parte del cracking dei documenti. Questa azione richiede che parsingMode sia impostata su default e dataToExtract sia impostata su contentAndMetadata . Un'immagine normalizzata si riferisce a un'elaborazione aggiuntiva che comporta un output uniforme dell'immagine, ridimensionato e ruotato per promuovere il rendering coerente quando si includono immagini nei risultati della ricerca visiva (ad esempio, fotografie delle stesse dimensioni in un controllo grafico, come illustrato nella demo di JFK). Queste informazioni vengono generate per ogni immagine quando si usa questa opzione. Se si imposta su generateNormalizedImagePerPage , i file PDF vengono trattati in modo diverso in quanto invece di estrarre immagini incorporate, il rendering di ogni pagina viene eseguito come immagine e normalizzato di conseguenza. I tipi di file non PDF vengono considerati uguali a se generateNormalizedImages impostati. |
normalizedImageMaxWidth |
Qualsiasi numero intero compreso tra 50 e 10000 | La larghezza massima (in pixel) per le immagini normalizzate generate. Il valore predefinito è 2000. |
normalizedImageMaxHeight |
Qualsiasi numero intero compreso tra 50 e 10000 | L'altezza massima (in pixel) per le immagini normalizzate generate. Il valore predefinito è 2000. |
Nota
Il valore predefinito di 2000 pixel per i valori massimi di altezza e larghezza delle immagini normalizzate è basato sulle dimensioni massime supportate dalla competenza OCR e dalla competenza di analisi delle immagini. La competenza OCR supporta una larghezza e un'altezza massima di 4200 per le lingue non inglesi e 10000 per l'inglese. Se si aumentano i limiti massimi, l'elaborazione potrebbe non riuscire nelle immagini più grandi a seconda della definizione del set di competenze e della lingua dei documenti.
Input competenze
Nome input | Descrizione |
---|---|
file_data |
File da cui estrarre il contenuto. |
L'input "file_data" deve essere un oggetto definito come:
{
"$type": "file",
"data": "BASE64 encoded string of the file"
}
In alternativa, può essere definita come:
{
"$type": "file",
"url": "URL to download file",
"sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}
L'oggetto riferimento file può essere generato uno dei tre modi seguenti:
Impostazione del parametro nella definizione dell'indicizzatore
allowSkillsetToReadFileData
su "true". Verrà creato un percorso/document/file_data
che rappresenta i dati del file originale scaricati dall'origine dati BLOB. Questo parametro si applica solo ai file nell'archivio BLOB.Impostazione del parametro nella definizione dell'indicizzatore
imageAction
su un valore diverso danone
. In questo modo viene creata una matrice di immagini che segue la convenzione necessaria per l'input per questa competenza, se passata singolarmente ,/document/normalized_images/*
ovvero .La presenza di una competenza personalizzata restituisce un oggetto JSON definito ESATTAMENTE come sopra. Il
$type
parametro deve essere impostato esattamentefile
su e ildata
parametro deve essere costituito dai dati della matrice di byte con codifica base 64 del contenuto del file oppure ilurl
parametro deve essere un URL formattato correttamente con l'accesso per scaricare il file in tale percorso.
Output competenze
Nome output | Descrizione |
---|---|
content |
Contenuto testuale del documento. |
normalized_images |
Quando l'oggetto imageAction è impostato su un valore diverso da none , il nuovo campo normalized_images contiene una matrice di immagini. Per altri dettagli sul formato di output, vedere Estrarre testo e informazioni dalle immagini . |
Definizione di esempio
{
"@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
"parsingMode": "default",
"dataToExtract": "contentAndMetadata",
"configuration": {
"imageAction": "generateNormalizedImages",
"normalizedImageMaxWidth": 2000,
"normalizedImageMaxHeight": 2000
},
"context": "/document",
"inputs": [
{
"name": "file_data",
"source": "/document/file_data"
}
],
"outputs": [
{
"name": "content",
"targetName": "extracted_content"
},
{
"name": "normalized_images",
"targetName": "extracted_normalized_images"
}
]
}
Input di esempio
{
"values": [
{
"recordId": "1",
"data":
{
"file_data": {
"$type": "file",
"data": "aGVsbG8="
}
}
}
]
}
Output di esempio
{
"values": [
{
"recordId": "1",
"data": {
"content": "hello",
"normalized_images": []
}
}
]
}