你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

IndexingParametersConfiguration 类

索引器特定配置属性的字典。 每个名称都是特定属性的名称。 每个值都必须是基元类型。

继承
azure.search.documents.indexes._generated._serialization.Model
IndexingParametersConfiguration

构造函数

IndexingParametersConfiguration(*, additional_properties: Dict[str, Any] | None = None, parsing_mode: str | _models.BlobIndexerParsingMode = 'default', excluded_file_name_extensions: str = '', indexed_file_name_extensions: str = '', fail_on_unsupported_content_type: bool = False, fail_on_unprocessable_document: bool = False, index_storage_metadata_only_for_oversized_documents: bool = False, delimited_text_headers: str | None = None, delimited_text_delimiter: str | None = None, first_line_contains_headers: bool = True, document_root: str | None = None, data_to_extract: str | _models.BlobIndexerDataToExtract = 'contentAndMetadata', image_action: str | _models.BlobIndexerImageAction = 'none', allow_skillset_to_read_file_data: bool = False, pdf_text_rotation_algorithm: str | _models.BlobIndexerPDFTextRotationAlgorithm = 'none', execution_environment: str | _models.IndexerExecutionEnvironment = 'standard', query_timeout: str = '00:05:00', **kwargs: Any)

仅限关键字的参数

名称 说明
additional_properties

消息中的不匹配属性将反序列化到此集合。

parsing_mode
str 或 <xref:search_service_client.models.BlobIndexerParsingMode>

表示用于从 Azure Blob 数据源编制索引分析模式。 已知值为:“default”、“text”、“delimitedText”、“json”、“jsonArray”和“jsonLines”。

默认值: default
excluded_file_name_extensions
str

从 Azure Blob 存储进行处理时要忽略的文件扩展名的逗号分隔列表。 例如,可以排除“.png,.mp4”,以便在索引编制过程中跳过这些文件。

indexed_file_name_extensions
str

从 Azure Blob 存储进行处理时要选择的以逗号分隔的文件扩展名列表。 例如,可以让索引编制侧重于特定的应用程序文件“.docx、.pptx、.msg”,以便专门包括这些文件类型。

fail_on_unsupported_content_type

对于 Azure Blob,如果要在遇到不受支持的内容类型时继续编制索引,并且事先不知道所有内容类型 (文件扩展名) ,请将 设置为 false。

fail_on_unprocessable_document

对于 Azure Blob,如果要在文档索引失败时继续编制索引,请将 设置为 false。

index_storage_metadata_only_for_oversized_documents

对于 Azure Blob,请将此属性设置为 true,以便为太大而无法处理的 Blob 内容的存储元数据编制索引。 过大的 blob 会被默认视为错误。 有关 Blob 大小的限制,请参阅 https://docs.microsoft.com/azure/search/search-limits-quotas-capacity

delimited_text_headers
str

对于 CSV Blob,指定以逗号分隔的列标题列表,用于将源字段映射到索引中的目标字段。

delimited_text_delimiter
str

对于 CSV Blob,指定 CSV 文件的行尾单字符分隔符,其中每行启动一个新文档 (例如“|”) 。

first_line_contains_headers

对于 CSV blob,指示每个 blob 的第一个 (非空) 行包含标头。

默认值: True
document_root
str

对于 JSON 数组,给定结构化或半结构化文档,可以使用此属性指定数组的路径。

data_to_extract
str 或 <xref:search_service_client.models.BlobIndexerDataToExtract>

指定要从 Azure Blob 存储中提取的数据,并在将“imageAction”设置为“none”以外的值时,告知索引器从图像内容中提取哪些数据。 这适用于 .PDF 或其他应用程序中的嵌入图像内容,或者 Azure blob 中的图像文件(例如 .jpg 和 .png)。 已知值为:“storageMetadata”、“allMetadata”和“contentAndMetadata”。

默认值: contentAndMetadata
image_action
str 或 <xref:search_service_client.models.BlobIndexerImageAction>

确定如何处理 Azure Blob 存储中的嵌入图像和图像文件。 将“imageAction”配置设置为“none”以外的任何值都需要将技能组附加到该索引器。 已知值为:“none”、“generateNormalizedImages”和“generateNormalizedImagePerPage”。

默认值: none
allow_skillset_to_read_file_data

如果为 true,将创建一个路径 //document//file_data,该路径是表示从 Blob 数据源下载的原始文件数据的对象。 这使你可以将原始文件数据传递给自定义技能,以便在扩充管道内进行处理,或传递到文档提取技能。

pdf_text_rotation_algorithm
str 或 <xref:search_service_client.models.BlobIndexerPDFTextRotationAlgorithm>

确定从 Azure Blob 存储中的 PDF 文件提取文本的算法。 已知值为:“none”和“detectAngles”。

默认值: none
execution_environment
str 或 <xref:search_service_client.models.IndexerExecutionEnvironment>

指定索引器应在其中执行的环境。 已知值为:“standard”和“private”。

默认值: standard
query_timeout
str

将Azure SQL数据库数据源的超时时间增加到超过 5 分钟默认值,以“hh:mm:ss”格式指定。

默认值: 00:05:00

变量

名称 说明
additional_properties

消息中的不匹配属性将反序列化到此集合。

parsing_mode
str 或 <xref:search_service_client.models.BlobIndexerParsingMode>

表示用于从 Azure Blob 数据源编制索引分析模式。 已知值为:“default”、“text”、“delimitedText”、“json”、“jsonArray”和“jsonLines”。

excluded_file_name_extensions
str

从 Azure Blob 存储进行处理时要忽略的文件扩展名的逗号分隔列表。 例如,可以排除“.png,.mp4”,以便在索引编制过程中跳过这些文件。

indexed_file_name_extensions
str

从 Azure Blob 存储进行处理时要选择的以逗号分隔的文件扩展名列表。 例如,可以让索引编制侧重于特定的应用程序文件“.docx、.pptx、.msg”,以便专门包括这些文件类型。

fail_on_unsupported_content_type

对于 Azure Blob,如果要在遇到不受支持的内容类型时继续编制索引,并且事先不知道所有内容类型 (文件扩展名) ,请将 设置为 false。

fail_on_unprocessable_document

对于 Azure Blob,如果要在文档索引失败时继续编制索引,请将 设置为 false。

index_storage_metadata_only_for_oversized_documents

对于 Azure Blob,请将此属性设置为 true,以便为太大而无法处理的 Blob 内容的存储元数据编制索引。 过大的 blob 会被默认视为错误。 有关 Blob 大小的限制,请参阅 https://docs.microsoft.com/azure/search/search-limits-quotas-capacity

delimited_text_headers
str

对于 CSV Blob,指定以逗号分隔的列标题列表,用于将源字段映射到索引中的目标字段。

delimited_text_delimiter
str

对于 CSV Blob,指定 CSV 文件的行尾单字符分隔符,其中每行启动一个新文档 (例如“|”) 。

first_line_contains_headers

对于 CSV blob,指示每个 blob 的第一个 (非空) 行包含标头。

document_root
str

对于 JSON 数组,给定结构化或半结构化文档,可以使用此属性指定数组的路径。

data_to_extract
str 或 <xref:search_service_client.models.BlobIndexerDataToExtract>

指定要从 Azure Blob 存储中提取的数据,并在将“imageAction”设置为“none”以外的值时,告知索引器从图像内容中提取哪些数据。 这适用于 .PDF 或其他应用程序中的嵌入图像内容,或者 Azure blob 中的图像文件(例如 .jpg 和 .png)。 已知值为:“storageMetadata”、“allMetadata”和“contentAndMetadata”。

image_action
str 或 <xref:search_service_client.models.BlobIndexerImageAction>

确定如何处理 Azure Blob 存储中的嵌入图像和图像文件。 将“imageAction”配置设置为“none”以外的任何值都需要将技能组附加到该索引器。 已知值为:“none”、“generateNormalizedImages”和“generateNormalizedImagePerPage”。

allow_skillset_to_read_file_data

如果为 true,将创建一个路径 //document//file_data,该路径是表示从 Blob 数据源下载的原始文件数据的对象。 这使你可以将原始文件数据传递给自定义技能,以便在扩充管道内进行处理,或传递到文档提取技能。

pdf_text_rotation_algorithm
str 或 <xref:search_service_client.models.BlobIndexerPDFTextRotationAlgorithm>

确定从 Azure Blob 存储中的 PDF 文件提取文本的算法。 已知值为:“none”和“detectAngles”。

execution_environment
str 或 <xref:search_service_client.models.IndexerExecutionEnvironment>

指定索引器应在其中执行的环境。 已知值为:“standard”和“private”。

query_timeout
str

将Azure SQL数据库数据源的超时时间增加到超过 5 分钟默认值,以“hh:mm:ss”格式指定。

方法

as_dict

返回可使用 json.dump 进行序列化的 dict。

高级用法可以选择使用回调作为参数:

Key 是 Python 中使用的属性名称。 Attr_desc是元数据的一个听写。 当前包含具有 msrest 类型的“type”和包含 RestAPI 编码键的“key”。 值是此对象中的当前值。

返回的字符串将用于序列化密钥。 如果返回类型是列表,则这被视为分层结果听写。

请参阅此文件中的三个示例:

  • attribute_transformer

  • full_restapi_key_transformer

  • last_restapi_key_transformer

如果需要 XML 序列化,可以传递 kwargs is_xml=True。

deserialize

使用 RestAPI 语法分析 str 并返回模型。

enable_additional_properties_sending
from_dict

使用给定的键提取程序分析 dict 返回一个模型。

默认情况下,请考虑密钥提取程序 (rest_key_case_insensitive_extractor、attribute_key_case_insensitive_extractor和last_rest_key_case_insensitive_extractor)

is_xml_model
serialize

返回将从此模型发送到服务器的 JSON。

这是as_dict (full_restapi_key_transformer的别名 ,keep_readonly=False)

如果需要 XML 序列化,可以传递 kwargs is_xml=True。

as_dict

返回可使用 json.dump 进行序列化的 dict。

高级用法可以选择使用回调作为参数:

Key 是 Python 中使用的属性名称。 Attr_desc是元数据的一个听写。 当前包含具有 msrest 类型的“type”和包含 RestAPI 编码键的“key”。 值是此对象中的当前值。

返回的字符串将用于序列化密钥。 如果返回类型是列表,则这被视为分层结果听写。

请参阅此文件中的三个示例:

  • attribute_transformer

  • full_restapi_key_transformer

  • last_restapi_key_transformer

如果需要 XML 序列化,可以传递 kwargs is_xml=True。

as_dict(keep_readonly: bool = True, key_transformer: ~typing.Callable[[str, ~typing.Dict[str, ~typing.Any], ~typing.Any], ~typing.Any] = <function attribute_transformer>, **kwargs: ~typing.Any) -> MutableMapping[str, Any]

参数

名称 说明
key_transformer
<xref:function>

密钥转换器函数。

keep_readonly
默认值: True

返回

类型 说明

与 dict JSON 兼容的对象

deserialize

使用 RestAPI 语法分析 str 并返回模型。

deserialize(data: Any, content_type: str | None = None) -> ModelType

参数

名称 说明
data
必需
str

使用 RestAPI 结构的 str。 默认情况下为 JSON。

content_type
str

默认情况下,如果 XML,则设置 application/xml。

默认值: None

返回

类型 说明

此模型的实例

例外

类型 说明
DeserializationError if something went wrong

enable_additional_properties_sending

enable_additional_properties_sending() -> None

from_dict

使用给定的键提取程序分析 dict 返回一个模型。

默认情况下,请考虑密钥提取程序 (rest_key_case_insensitive_extractor、attribute_key_case_insensitive_extractor和last_rest_key_case_insensitive_extractor)

from_dict(data: Any, key_extractors: Callable[[str, Dict[str, Any], Any], Any] | None = None, content_type: str | None = None) -> ModelType

参数

名称 说明
data
必需

使用 RestAPI 结构的 dict

content_type
str

默认情况下,如果 XML,则设置 application/xml。

默认值: None
key_extractors
默认值: None

返回

类型 说明

此模型的实例

例外

类型 说明
DeserializationError if something went wrong

is_xml_model

is_xml_model() -> bool

serialize

返回将从此模型发送到服务器的 JSON。

这是as_dict (full_restapi_key_transformer的别名 ,keep_readonly=False)

如果需要 XML 序列化,可以传递 kwargs is_xml=True。

serialize(keep_readonly: bool = False, **kwargs: Any) -> MutableMapping[str, Any]

参数

名称 说明
keep_readonly

如果要序列化只读属性

默认值: False

返回

类型 说明

与 dict JSON 兼容的对象