Azure AI Search で使用されるコンテンツ メタデータ プロパティ

Azure Blob Storage、Azure Data Lake Storage Gen2、SharePoint など、インデクサーでサポートされているデータ ソースのいくつかには、さまざまなコンテンツ タイプのスタンドアロン ファイルまたは埋め込みオブジェクトが含まれています。 これらのコンテンツ タイプの多くは、インデックス作成に役立つメタデータ プロパティを持っています。 metadata_storage_name などの標準 BLOB プロパティの検索フィールドを作成するのと同様に、ドキュメント形式に固有のメタデータ プロパティ用のフィールドを検索インデックス内に作成できます。

サポートされるドキュメントの形式

Azure AI Search では、次のドキュメント形式の BLOB のインデックス作成と SharePoint ドキュメントのインデックス作成がサポートされています。

ドキュメント形式別のプロパティ

以下の表は、各ドキュメント形式に関する処理と、BLOB インデクサーおよび SharePoint Online インデクサーによって抽出されるメタデータ プロパティをまとめたものです。

ドキュメントの形式/コンテンツの種類 抽出されるメタデータ 処理の詳細
CSV (text/csv) metadata_content_type
metadata_content_encoding
テキストを抽出します
注: CSV BLOB から複数のドキュメント フィールドを抽出する必要がある場合、詳細について、CSV BLOB のインデックス作成に関する記事をご覧ください
DOC (application/msword) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
テキストを抽出します。埋め込みドキュメントも対象となります。
DOCM (application/vnd.ms-word.document.macroenabled.12) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
テキストを抽出します。埋め込みドキュメントも対象となります。
DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
テキストを抽出します。埋め込みドキュメントも対象となります。
EML (message/rfc822) metadata_content_type
metadata_message_from
metadata_message_to
metadata_message_cc
metadata_creation_date
metadata_subject
テキストを抽出します。添付ファイルも対象となります。
EPUB (application/epub+zip) metadata_content_type
metadata_author
metadata_creation_date
metadata_title
metadata_description
metadata_language
metadata_keywords
metadata_identifier
metadata_publisher
アーカイブ内のすべてのドキュメントからテキストを抽出します。
GZ (application/gzip) metadata_content_type アーカイブ内のすべてのドキュメントからテキストを抽出します。
HTML (text/html または application/xhtml+xml) metadata_content_encoding
metadata_content_type
metadata_language
metadata_description
metadata_keywords
metadata_title
HTML マークアップを削除し、テキストを抽出します。
JSON (application/json) metadata_content_type
metadata_content_encoding
テキストを抽出します
注: JSON BLOB から複数のドキュメント フィールドを抽出する必要がある場合、詳細については、JSON BLOB のインデックス作成に関する記事をご覧ください
KML (application/vnd.google-earth.kml+xml) metadata_content_type
metadata_content_encoding
metadata_language
XML マークアップを削除し、テキストを抽出します。
MSG (application/vnd.ms-outlook) metadata_content_type
metadata_message_from
metadata_message_from_email
metadata_message_to
metadata_message_to_email
metadata_message_cc
metadata_message_cc_email
metadata_message_bcc
metadata_message_bcc_email
metadata_creation_date
metadata_last_modified
metadata_subject
テキスト (添付ファイルから抽出されたテキストを含む) を抽出します。 metadata_message_to_emailmetadata_message_cc_emailmetadata_message_bcc_email は文字列コレクションであり、残りのフィールドは文字列です。
ODP (application/vnd.oasis.opendocument.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_title
テキストを抽出します。埋め込みドキュメントも対象となります。
ODS (application/vnd.oasis.opendocument.spreadsheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
テキストを抽出します。埋め込みドキュメントも対象となります。
ODT (application/vnd.oasis.opendocument.text) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
テキストを抽出します。埋め込みドキュメントも対象となります。
PDF (application/pdf) metadata_content_type
metadata_language
metadata_author
metadata_title
metadata_creation_date
テキストを抽出します。埋め込みドキュメントも対象となります (画像を除く)。
プレーン テキスト (text/plain) metadata_content_type
metadata_content_encoding
metadata_language
テキストを抽出します
PPT (application/vnd.ms-powerpoint) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
テキストを抽出します。埋め込みドキュメントも対象となります。
PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
テキストを抽出します。埋め込みドキュメントも対象となります。
PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
テキストを抽出します。埋め込みドキュメントも対象となります。
RTF (アプリケーション/rtf) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
テキストを抽出します
WORD 2003 XML (application/vnd.ms-wordml) metadata_content_type
metadata_author
metadata_creation_date
XML マークアップを削除し、テキストを抽出します。
WORD XML (application/vnd.ms-word2006ml) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
XML マークアップを削除し、テキストを抽出します。
XLS (application/vnd.ms-excel) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
テキストを抽出します。埋め込みドキュメントも対象となります。
XLSM (application/vnd.ms-excel.sheet.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
テキストを抽出します。埋め込みドキュメントも対象となります。
XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
テキストを抽出します。埋め込みドキュメントも対象となります。
XML (application/xml) metadata_content_type
metadata_content_encoding
metadata_language
XML マークアップを削除し、テキストを抽出します。
ZIP (application/zip) metadata_content_type アーカイブ内のすべてのドキュメントからテキストを抽出します。

関連項目