Kognitiv skicklighet för dokumentextrahering
Kunskapen för dokumentextrahering extraherar innehåll från en fil i berikande pipelinen. På så sätt kan du dra nytta av det dokumentextraheringssteg som normalt sker före körningen av kunskapsuppsättningen med filer som kan genereras av andra kunskaper.
Kommentar
Den här kompetensen är inte bunden till Azure AI-tjänster och har inga nyckelkrav för Azure AI-tjänster. Den här färdigheten extraherar text och bilder. Extrahering av text är kostnadsfri. Bildextrahering mäts av Azure AI Search. I en kostnadsfri söktjänst absorberas kostnaden för 20 transaktioner per indexerare per dag så att du kan slutföra snabbstarter, självstudier och små projekt utan kostnad. För Basic, Standard och senare är bildextrahering fakturerbar.
@odata.type
Microsoft.Skills.Util.DocumentExtractionSkill
Dokumentformat som stöds
DocumentExtractionSkill kan extrahera text från följande dokumentformat:
- CSV (se Indexering av CSV-blobar)
- EML
- EPUB
- GZ
- HTML
- JSON (se Indexering av JSON-blobar)
- KML (XML för geografiska representationer)
- Microsoft kancelarija format: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (Outlook-e-post), XML (både 2003 och 2006 WORD XML)
- Öppna dokumentformat: ODT, ODS, ODP
- Oformaterade textfiler (se även Indexering av oformaterad text)
- RTF
- XML
- ZIP
Kompetensparametrar
Parametrar är skiftlägeskänsliga.
Indata | Tillåtna värden | beskrivning |
---|---|---|
parsingMode |
default text json |
Ange till default för extrahering av dokument från filer som inte är ren text eller json. För källfiler som innehåller markering (till exempel PDF, HTML, RTF och Microsoft kancelarija filer) använder du standardvärdet för att extrahera bara texten, minus valfritt markeringsspråk eller taggar. Om parsingMode inte uttryckligen definieras anges det till default . Ange till text om källfilerna är TXT. Det här parsningsläget förbättrar prestanda för oformaterade textfiler. Om filer innehåller markering bevarar det här läget taggarna i de slutliga utdata. Ange till för att json extrahera strukturerat innehåll från json-filer. |
dataToExtract |
contentAndMetadata allMetadata |
Ange till för att contentAndMetadata extrahera alla metadata och textinnehåll från varje fil. Om dataToExtract inte uttryckligen definieras anges det till contentAndMetadata . Ange till för att allMetadata endast extrahera metadataegenskaperna för innehållstypen (till exempel metadata som är unika för bara .png filer). |
configuration |
Se nedan. | En ordlista med valfria parametrar som justerar hur dokumentextraheringen utförs. Se tabellen nedan för beskrivningar av konfigurationsegenskaper som stöds. |
Konfigurationsparameter | Tillåtna värden | beskrivning |
---|---|---|
imageAction |
none generateNormalizedImages generateNormalizedImagePerPage |
Ange till för att none ignorera inbäddade bilder eller bildfiler i datauppsättningen, eller om källdata inte innehåller bildfiler. Det här är standardinställningen. För OCR och bildanalys anger du till att generateNormalizedImages kunskapen ska skapa en matris med normaliserade bilder som en del av dokumentsprickor. Den här åtgärden kräver att parsingMode den är inställd på default och dataToExtract är inställd på contentAndMetadata . En normaliserad bild refererar till extra bearbetning som resulterar i enhetlig bildutdata, storlek och roterad för att främja konsekvent återgivning när du inkluderar bilder i visuella sökresultat (till exempel fotografier av samma storlek i en grafkontroll som visas i JFK-demonstrationen). Den här informationen genereras för varje bild när du använder det här alternativet. Om du anger till generateNormalizedImagePerPage behandlas PDF-filer på olika sätt i stället för att extrahera inbäddade bilder återges varje sida som en bild och normaliseras därefter. Filtyper som inte är PDF-filer behandlas på samma sätt som om generateNormalizedImages de angavs. |
normalizedImageMaxWidth |
Alla heltal mellan 50-10000 | Den maximala bredden (i bildpunkter) för normaliserade bilder som genereras. Standardvärdet är 2 000. |
normalizedImageMaxHeight |
Alla heltal mellan 50-10000 | Den maximala höjden (i bildpunkter) för normaliserade bilder som genereras. Standardvärdet är 2 000. |
Kommentar
Standardvärdet på 2 000 bildpunkter för normaliserade bilders maximala bredd och höjd baseras på de maximala storlekar som stöds av OCR-skickligheten och bildanalysens skicklighet. OCR-färdigheten stöder en maximal bredd och höjd på 4200 för icke-engelska språk och 10000 för engelska. Om du ökar de maximala gränserna kan bearbetningen misslyckas på större bilder beroende på din kompetensuppsättningsdefinition och dokumentens språk.
Kunskapsindata
Indatanamn | beskrivning |
---|---|
file_data |
Filen som innehållet ska extraheras från. |
Indata för "file_data" måste vara ett objekt som definieras som:
{
"$type": "file",
"data": "BASE64 encoded string of the file"
}
Alternativt kan den definieras som:
{
"$type": "file",
"url": "URL to download file",
"sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}
Filreferensobjektet kan genereras på något av tre sätt:
Ange parametern för
allowSkillsetToReadFileData
indexerarens definition till "true". Detta skapar en sökväg/document/file_data
som är ett objekt som representerar de ursprungliga fildata som laddats ned från din blobdatakälla. Den här parametern gäller endast för filer i Blob Storage.Ange parametern för
imageAction
indexerarens definition till ett annat värde ännone
. Detta skapar en matris med bilder som följer den nödvändiga konventionen för indata till den här färdigheten om den skickas individuellt (det vill:/document/normalized_images/*
).Om du har en anpassad färdighet returneras ett json-objekt som definierats EXAKT som ovan. Parametern
$type
måste anges till exaktfile
och parameterndata
måste vara grundläggande 64-kodade bytematrisdata för filinnehållet, eller så måste parameternurl
vara en korrekt formaterad URL med åtkomst för att ladda ned filen på den platsen.
Kunskapsutdata
Utdatanamn | beskrivning |
---|---|
content |
Dokumentets textinnehåll. |
normalized_images |
imageAction När värdet är inställt på ett annat värde än none innehåller det nya fältet normalized_images en matris med bilder. Mer information om utdataformatet finns i Extrahera text och information från bilder . |
Exempeldefinition
{
"@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
"parsingMode": "default",
"dataToExtract": "contentAndMetadata",
"configuration": {
"imageAction": "generateNormalizedImages",
"normalizedImageMaxWidth": 2000,
"normalizedImageMaxHeight": 2000
},
"context": "/document",
"inputs": [
{
"name": "file_data",
"source": "/document/file_data"
}
],
"outputs": [
{
"name": "content",
"targetName": "extracted_content"
},
{
"name": "normalized_images",
"targetName": "extracted_normalized_images"
}
]
}
Exempelindata
{
"values": [
{
"recordId": "1",
"data":
{
"file_data": {
"$type": "file",
"data": "aGVsbG8="
}
}
}
]
}
Exempelutdata
{
"values": [
{
"recordId": "1",
"data": {
"content": "hello",
"normalized_images": []
}
}
]
}