你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
IndexingParametersConfiguration 类
索引器特定配置属性的字典。 每个名称都是特定属性的名称。 每个值都必须是基元类型。
- 继承
-
azure.search.documents.indexes._generated._serialization.ModelIndexingParametersConfiguration
构造函数
IndexingParametersConfiguration(*, additional_properties: Dict[str, Any] | None = None, parsing_mode: str | _models.BlobIndexerParsingMode = 'default', excluded_file_name_extensions: str = '', indexed_file_name_extensions: str = '', fail_on_unsupported_content_type: bool = False, fail_on_unprocessable_document: bool = False, index_storage_metadata_only_for_oversized_documents: bool = False, delimited_text_headers: str | None = None, delimited_text_delimiter: str | None = None, first_line_contains_headers: bool = True, document_root: str | None = None, data_to_extract: str | _models.BlobIndexerDataToExtract = 'contentAndMetadata', image_action: str | _models.BlobIndexerImageAction = 'none', allow_skillset_to_read_file_data: bool = False, pdf_text_rotation_algorithm: str | _models.BlobIndexerPDFTextRotationAlgorithm = 'none', execution_environment: str | _models.IndexerExecutionEnvironment = 'standard', query_timeout: str = '00:05:00', **kwargs: Any)
仅限关键字的参数
名称 | 说明 |
---|---|
additional_properties
|
消息中的不匹配属性将反序列化到此集合。 |
parsing_mode
|
str 或
<xref:search_service_client.models.BlobIndexerParsingMode>
表示用于从 Azure Blob 数据源编制索引分析模式。 已知值为:“default”、“text”、“delimitedText”、“json”、“jsonArray”和“jsonLines”。 默认值: default
|
excluded_file_name_extensions
|
从 Azure Blob 存储进行处理时要忽略的文件扩展名的逗号分隔列表。 例如,可以排除“.png,.mp4”,以便在索引编制过程中跳过这些文件。 |
indexed_file_name_extensions
|
从 Azure Blob 存储进行处理时要选择的以逗号分隔的文件扩展名列表。 例如,可以让索引编制侧重于特定的应用程序文件“.docx、.pptx、.msg”,以便专门包括这些文件类型。 |
fail_on_unsupported_content_type
|
对于 Azure Blob,如果要在遇到不受支持的内容类型时继续编制索引,并且事先不知道所有内容类型 (文件扩展名) ,请将 设置为 false。 |
fail_on_unprocessable_document
|
对于 Azure Blob,如果要在文档索引失败时继续编制索引,请将 设置为 false。 |
index_storage_metadata_only_for_oversized_documents
|
对于 Azure Blob,请将此属性设置为 true,以便为太大而无法处理的 Blob 内容的存储元数据编制索引。 过大的 blob 会被默认视为错误。 有关 Blob 大小的限制,请参阅 https://docs.microsoft.com/azure/search/search-limits-quotas-capacity。 |
delimited_text_headers
|
对于 CSV Blob,指定以逗号分隔的列标题列表,用于将源字段映射到索引中的目标字段。 |
delimited_text_delimiter
|
对于 CSV Blob,指定 CSV 文件的行尾单字符分隔符,其中每行启动一个新文档 (例如“|”) 。 |
first_line_contains_headers
|
对于 CSV blob,指示每个 blob 的第一个 (非空) 行包含标头。 默认值: True
|
document_root
|
对于 JSON 数组,给定结构化或半结构化文档,可以使用此属性指定数组的路径。 |
data_to_extract
|
str 或
<xref:search_service_client.models.BlobIndexerDataToExtract>
指定要从 Azure Blob 存储中提取的数据,并在将“imageAction”设置为“none”以外的值时,告知索引器从图像内容中提取哪些数据。 这适用于 .PDF 或其他应用程序中的嵌入图像内容,或者 Azure blob 中的图像文件(例如 .jpg 和 .png)。 已知值为:“storageMetadata”、“allMetadata”和“contentAndMetadata”。 默认值: contentAndMetadata
|
image_action
|
str 或
<xref:search_service_client.models.BlobIndexerImageAction>
确定如何处理 Azure Blob 存储中的嵌入图像和图像文件。 将“imageAction”配置设置为“none”以外的任何值都需要将技能组附加到该索引器。 已知值为:“none”、“generateNormalizedImages”和“generateNormalizedImagePerPage”。 默认值: none
|
allow_skillset_to_read_file_data
|
如果为 true,将创建一个路径 //document//file_data,该路径是表示从 Blob 数据源下载的原始文件数据的对象。 这使你可以将原始文件数据传递给自定义技能,以便在扩充管道内进行处理,或传递到文档提取技能。 |
pdf_text_rotation_algorithm
|
str 或
<xref:search_service_client.models.BlobIndexerPDFTextRotationAlgorithm>
确定从 Azure Blob 存储中的 PDF 文件提取文本的算法。 已知值为:“none”和“detectAngles”。 默认值: none
|
execution_environment
|
str 或
<xref:search_service_client.models.IndexerExecutionEnvironment>
指定索引器应在其中执行的环境。 已知值为:“standard”和“private”。 默认值: standard
|
query_timeout
|
将Azure SQL数据库数据源的超时时间增加到超过 5 分钟默认值,以“hh:mm:ss”格式指定。 默认值: 00:05:00
|
变量
名称 | 说明 |
---|---|
additional_properties
|
消息中的不匹配属性将反序列化到此集合。 |
parsing_mode
|
str 或
<xref:search_service_client.models.BlobIndexerParsingMode>
表示用于从 Azure Blob 数据源编制索引分析模式。 已知值为:“default”、“text”、“delimitedText”、“json”、“jsonArray”和“jsonLines”。 |
excluded_file_name_extensions
|
从 Azure Blob 存储进行处理时要忽略的文件扩展名的逗号分隔列表。 例如,可以排除“.png,.mp4”,以便在索引编制过程中跳过这些文件。 |
indexed_file_name_extensions
|
从 Azure Blob 存储进行处理时要选择的以逗号分隔的文件扩展名列表。 例如,可以让索引编制侧重于特定的应用程序文件“.docx、.pptx、.msg”,以便专门包括这些文件类型。 |
fail_on_unsupported_content_type
|
对于 Azure Blob,如果要在遇到不受支持的内容类型时继续编制索引,并且事先不知道所有内容类型 (文件扩展名) ,请将 设置为 false。 |
fail_on_unprocessable_document
|
对于 Azure Blob,如果要在文档索引失败时继续编制索引,请将 设置为 false。 |
index_storage_metadata_only_for_oversized_documents
|
对于 Azure Blob,请将此属性设置为 true,以便为太大而无法处理的 Blob 内容的存储元数据编制索引。 过大的 blob 会被默认视为错误。 有关 Blob 大小的限制,请参阅 https://docs.microsoft.com/azure/search/search-limits-quotas-capacity。 |
delimited_text_headers
|
对于 CSV Blob,指定以逗号分隔的列标题列表,用于将源字段映射到索引中的目标字段。 |
delimited_text_delimiter
|
对于 CSV Blob,指定 CSV 文件的行尾单字符分隔符,其中每行启动一个新文档 (例如“|”) 。 |
first_line_contains_headers
|
对于 CSV blob,指示每个 blob 的第一个 (非空) 行包含标头。 |
document_root
|
对于 JSON 数组,给定结构化或半结构化文档,可以使用此属性指定数组的路径。 |
data_to_extract
|
str 或
<xref:search_service_client.models.BlobIndexerDataToExtract>
指定要从 Azure Blob 存储中提取的数据,并在将“imageAction”设置为“none”以外的值时,告知索引器从图像内容中提取哪些数据。 这适用于 .PDF 或其他应用程序中的嵌入图像内容,或者 Azure blob 中的图像文件(例如 .jpg 和 .png)。 已知值为:“storageMetadata”、“allMetadata”和“contentAndMetadata”。 |
image_action
|
str 或
<xref:search_service_client.models.BlobIndexerImageAction>
确定如何处理 Azure Blob 存储中的嵌入图像和图像文件。 将“imageAction”配置设置为“none”以外的任何值都需要将技能组附加到该索引器。 已知值为:“none”、“generateNormalizedImages”和“generateNormalizedImagePerPage”。 |
allow_skillset_to_read_file_data
|
如果为 true,将创建一个路径 //document//file_data,该路径是表示从 Blob 数据源下载的原始文件数据的对象。 这使你可以将原始文件数据传递给自定义技能,以便在扩充管道内进行处理,或传递到文档提取技能。 |
pdf_text_rotation_algorithm
|
str 或
<xref:search_service_client.models.BlobIndexerPDFTextRotationAlgorithm>
确定从 Azure Blob 存储中的 PDF 文件提取文本的算法。 已知值为:“none”和“detectAngles”。 |
execution_environment
|
str 或
<xref:search_service_client.models.IndexerExecutionEnvironment>
指定索引器应在其中执行的环境。 已知值为:“standard”和“private”。 |
query_timeout
|
将Azure SQL数据库数据源的超时时间增加到超过 5 分钟默认值,以“hh:mm:ss”格式指定。 |
方法
as_dict |
返回可使用 json.dump 进行序列化的 dict。 高级用法可以选择使用回调作为参数: Key 是 Python 中使用的属性名称。 Attr_desc是元数据的一个听写。 当前包含具有 msrest 类型的“type”和包含 RestAPI 编码键的“key”。 值是此对象中的当前值。 返回的字符串将用于序列化密钥。 如果返回类型是列表,则这被视为分层结果听写。 请参阅此文件中的三个示例:
如果需要 XML 序列化,可以传递 kwargs is_xml=True。 |
deserialize |
使用 RestAPI 语法分析 str 并返回模型。 |
enable_additional_properties_sending | |
from_dict |
使用给定的键提取程序分析 dict 返回一个模型。 默认情况下,请考虑密钥提取程序 (rest_key_case_insensitive_extractor、attribute_key_case_insensitive_extractor和last_rest_key_case_insensitive_extractor) |
is_xml_model | |
serialize |
返回将从此模型发送到服务器的 JSON。 这是as_dict (full_restapi_key_transformer的别名 ,keep_readonly=False) 。 如果需要 XML 序列化,可以传递 kwargs is_xml=True。 |
as_dict
返回可使用 json.dump 进行序列化的 dict。
高级用法可以选择使用回调作为参数:
Key 是 Python 中使用的属性名称。 Attr_desc是元数据的一个听写。 当前包含具有 msrest 类型的“type”和包含 RestAPI 编码键的“key”。 值是此对象中的当前值。
返回的字符串将用于序列化密钥。 如果返回类型是列表,则这被视为分层结果听写。
请参阅此文件中的三个示例:
attribute_transformer
full_restapi_key_transformer
last_restapi_key_transformer
如果需要 XML 序列化,可以传递 kwargs is_xml=True。
as_dict(keep_readonly: bool = True, key_transformer: ~typing.Callable[[str, ~typing.Dict[str, ~typing.Any], ~typing.Any], ~typing.Any] = <function attribute_transformer>, **kwargs: ~typing.Any) -> MutableMapping[str, Any]
参数
名称 | 说明 |
---|---|
key_transformer
|
<xref:function>
密钥转换器函数。 |
keep_readonly
|
默认值: True
|
返回
类型 | 说明 |
---|---|
与 dict JSON 兼容的对象 |
deserialize
使用 RestAPI 语法分析 str 并返回模型。
deserialize(data: Any, content_type: str | None = None) -> ModelType
参数
名称 | 说明 |
---|---|
data
必需
|
使用 RestAPI 结构的 str。 默认情况下为 JSON。 |
content_type
|
默认情况下,如果 XML,则设置 application/xml。 默认值: None
|
返回
类型 | 说明 |
---|---|
此模型的实例 |
例外
类型 | 说明 |
---|---|
DeserializationError if something went wrong
|
enable_additional_properties_sending
enable_additional_properties_sending() -> None
from_dict
使用给定的键提取程序分析 dict 返回一个模型。
默认情况下,请考虑密钥提取程序 (rest_key_case_insensitive_extractor、attribute_key_case_insensitive_extractor和last_rest_key_case_insensitive_extractor)
from_dict(data: Any, key_extractors: Callable[[str, Dict[str, Any], Any], Any] | None = None, content_type: str | None = None) -> ModelType
参数
名称 | 说明 |
---|---|
data
必需
|
使用 RestAPI 结构的 dict |
content_type
|
默认情况下,如果 XML,则设置 application/xml。 默认值: None
|
key_extractors
|
默认值: None
|
返回
类型 | 说明 |
---|---|
此模型的实例 |
例外
类型 | 说明 |
---|---|
DeserializationError if something went wrong
|
is_xml_model
is_xml_model() -> bool