Respostas de cache para solicitações de API de modelo de linguagem grande
APLICA-SE A: Todas as camadas de gerenciamento de API
A llm-semantic-cache-store
política armazena em cache respostas à API de conclusão de chat e solicitações de API de conclusão em um cache externo configurado. O cache de resposta reduz os requisitos de largura de banda e processamento impostos à API OpenAI do Azure de back-end e reduz a latência percebida pelos consumidores de API.
Nota
- Essa política deve ter uma política correspondente de Obter respostas em cache para solicitações de API de modelo de linguagem grande.
- Para obter pré-requisitos e etapas para habilitar o cache semântico, consulte Habilitar cache semântico para APIs do Azure OpenAI no Gerenciamento de API do Azure.
- Atualmente, esta política está em pré-visualização.
Nota
Defina os elementos da política e os elementos filho na ordem fornecida na declaração de política. Saiba mais sobre como definir ou editar políticas de Gerenciamento de API.
Modelos suportados
Use a política com APIs LLM adicionadas ao Gerenciamento de API do Azure que estão disponíveis por meio da API de Inferência de Modelo de IA do Azure.
Declaração de política
<llm-semantic-cache-store duration="seconds"/>
Atributos
Atributo | Description | Necessário | Predefinição |
---|---|---|---|
duration | Tempo de vida útil das entradas armazenadas em cache, especificado em segundos. São permitidas expressões de política. | Sim | N/A |
Utilização
- Secções políticas: saída
- Escopos da política: global, produto, API, operação
- Gateways: v2
Notas de utilização
- Esta política só pode ser utilizada uma vez numa secção de política.
- Se a pesquisa de cache falhar, a chamada de API que usa a operação relacionada ao cache não gerará um erro e a operação de cache será concluída com êxito.
Exemplos
Exemplo com a política llm-semantic-cache-lookup correspondente
<policies>
<inbound>
<base />
<llm-semantic-cache-lookup
score-threshold="0.05"
embeddings-backend-id ="llm-backend"
embeddings-backend-auth ="system-assigned" >
<vary-by>@(context.Subscription.Id)</vary-by>
</llm-semantic-cache-lookup>
</inbound>
<outbound>
<llm-semantic-cache-store duration="60" />
<base />
</outbound>
</policies>
Políticas relacionadas
Conteúdos relacionados
Para obter mais informações sobre como trabalhar com políticas, consulte:
- Tutorial: Transforme e proteja sua API
- Referência de política para uma lista completa de declarações de política e suas configurações
- Expressões de política
- Definir ou editar políticas
- Reutilizar configurações de política
- Recompra de trechos de política
- Criar políticas usando o Microsoft Copilot no Azure