Egenskaper för innehållsmetadata som används i Azure AI Search
Flera datakällor som stöds av indexeraren, inklusive Azure Blob Storage, Azure Data Lake Storage Gen2 och SharePoint, innehåller fristående filer eller inbäddade objekt av olika innehållstyper. Många av dessa innehållstyper har metadataegenskaper som kan vara användbara för indexering. Precis som du kan skapa sökfält för standardblobegenskaper som metadata_storage_name
, kan du skapa fält i ett sökindex för metadataegenskaper som är specifika för ett dokumentformat.
Dokumentformat som stöds
Azure AI Search stöder blobindexering och SharePoint-dokumentindexering för följande dokumentformat:
- CSV (se Indexering av CSV-blobar)
- EML
- EPUB
- GZ
- HTML
- JSON (se Indexering av JSON-blobar)
- KML (XML för geografiska representationer)
- Microsoft Office-format: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (Outlook-e-post), XML (både 2003 och 2006 WORD XML)
- Öppna dokumentformat: ODT, ODS, ODP
- Oformaterade textfiler (se även Indexering av oformaterad text)
- RTF
- XML
- ZIP
Egenskaper för dokumentformat
I följande tabell sammanfattas bearbetningen för varje dokumentformat och metadataegenskaperna som extraheras av en blobindexerare och SharePoint Online-indexeraren.
Dokumentformat/innehållstyp | Extraherade metadata | Bearbetningsinformation |
---|---|---|
CSV (text/csv) | metadata_content_type metadata_content_encoding |
Extrahera text Obs! Om du behöver extrahera flera dokumentfält från en CSV-blob läser du Index-CSV-blobar |
DOC (program/msword) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Extrahera text, inklusive inbäddade dokument |
DOCM (application/vnd.ms-word.document.macroenabled.12) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Extrahera text, inklusive inbäddade dokument |
DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Extrahera text, inklusive inbäddade dokument |
EML (meddelande/rfc822) | metadata_content_type metadata_message_from metadata_message_to metadata_message_cc metadata_creation_date metadata_subject |
Extrahera text, inklusive bifogade filer |
EPUB (program/epub+zip) | metadata_content_type metadata_author metadata_creation_date metadata_title metadata_description metadata_language metadata_keywords metadata_identifier metadata_publisher |
Extrahera text från alla dokument i arkivet |
GZ (program/gzip) | metadata_content_type |
Extrahera text från alla dokument i arkivet |
HTML (text/html eller application/xhtml+xml) | metadata_content_encoding metadata_content_type metadata_language metadata_description metadata_keywords metadata_title |
Ta bort HTML-element och extrahera text |
JSON (application/json) | metadata_content_type metadata_content_encoding |
Extrahera text Obs! Om du behöver extrahera flera dokumentfält från en JSON-blob läser du Index-JSON-blobar |
KML (application/vnd.google-earth.kml+xml) | metadata_content_type metadata_content_encoding metadata_language |
Ta bort XML-element och extrahera text |
MSG (application/vnd.ms-outlook) | metadata_content_type metadata_message_from metadata_message_from_email metadata_message_to metadata_message_to_email metadata_message_cc metadata_message_cc_email metadata_message_bcc metadata_message_bcc_email metadata_creation_date metadata_last_modified metadata_subject |
Extrahera text, inklusive text som extraherats från bifogade filer. metadata_message_to_email , metadata_message_cc_email och metadata_message_bcc_email är strängsamlingar. Resten av fälten är strängar. |
ODP (application/vnd.oasis.opendocument.presentation) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_title |
Extrahera text, inklusive inbäddade dokument |
ODS (application/vnd.oasis.opendocument.spreadsheet) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Extrahera text, inklusive inbäddade dokument |
ODT (application/vnd.oasis.opendocument.text) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Extrahera text, inklusive inbäddade dokument |
PDF (program/pdf) | metadata_content_type metadata_language metadata_author metadata_title metadata_creation_date |
Extrahera text, inklusive inbäddade dokument (exklusive bilder) |
Oformaterad text (text/oformaterad) | metadata_content_type metadata_content_encoding metadata_language |
Extrahera text |
PPT (application/vnd.ms-powerpoint) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Extrahera text, inklusive inbäddade dokument |
PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Extrahera text, inklusive inbäddade dokument |
PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Extrahera text, inklusive inbäddade dokument |
RTF (program/rtf) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Extrahera text |
WORD 2003 XML (application/vnd.ms-wordml) | metadata_content_type metadata_author metadata_creation_date |
Ta bort XML-element och extrahera text |
WORD XML (application/vnd.ms-word2006ml) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Ta bort XML-element och extrahera text |
XLS (application/vnd.ms-excel) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Extrahera text, inklusive inbäddade dokument |
XLSM (application/vnd.ms-excel.sheet.macroenabled.12) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Extrahera text, inklusive inbäddade dokument |
XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Extrahera text, inklusive inbäddade dokument |
XML (program/xml) | metadata_content_type metadata_content_encoding metadata_language |
Ta bort XML-element och extrahera text |
ZIP (program/zip) | metadata_content_type |
Extrahera text från alla dokument i arkivet |