你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

缓存对大型语言模型 API 请求的响应

项目
08/13/2024

适用于：所有 API 管理层级

llm-semantic-cache-store 策略会将对聊天补全 API 和补全 API 请求的响应缓存到配置的外部缓存中。响应缓存可以降低后端 Azure OpenAI API 需要满足的带宽和处理能力要求，并可以减小 API 使用者能够察觉到的延迟。

注意

此策略必须有相应的获取大型语言 API 请求的缓存响应策略。
有关启用语义缓存的先决条件和步骤，请参阅在 Azure API 管理中为 Azure OpenAI API 启用语义缓存。
此策略目前为预览版。

注意

按照策略声明中提供的顺序设置策略的元素和子元素。详细了解如何设置或编辑 API 管理策略。

策略语句

<llm-semantic-cache-store duration="seconds"/>

属性

属性	说明	需要	默认
duration	缓存条目的生存时间，以秒为单位指定。允许使用策略表达式。	是	空值

使用情况

策略节：出站
策略范围：全局、产品、API、操作
网关：v2

使用注意事项

此策略只能在策略部分中使用一次。
如果缓存查找失败，则使用缓存相关操作的 API 调用不会引发错误，并且缓存操作成功完成。

示例

相应的 llm-semantic-cache-lookup 策略的示例

<policies>
    <inbound>
        <base />
        <llm-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="llm-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </llm-semantic-cache-lookup>
    </inbound>
    <outbound>
        <llm-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

有关使用策略的详细信息，请参阅：

通过

缓存对大型语言模型 API 请求的响应

策略语句

属性

使用情况

使用注意事项

示例

相应的 llm-semantic-cache-lookup 策略的示例

反馈

其他资源

通过

缓存对大型语言模型 API 请求的响应

策略语句

属性

使用情况

使用注意事项

示例

相应的 llm-semantic-cache-lookup 策略的示例

相关策略

相关内容

反馈

其他资源