Obter respostas em cache de solicitações de API de modelo de linguagem grande
APLICA-SE A: Todas as camadas de gerenciamento de API
Use a política para executar a llm-semantic-cache-lookup
pesquisa de cache de respostas a solicitações de API LLM (modelo de linguagem grande) a partir de um cache externo configurado, com base na proximidade vetorial do prompt a solicitações anteriores e em um limite de pontuação de similaridade especificado. O cache de resposta reduz a largura de banda e os requisitos de processamento impostos à API LLM de back-end e reduz a latência percebida pelos consumidores de API.
Nota
- Essa política deve ter respostas de cache correspondentes à política de solicitações de API de modelo de linguagem grande.
- Para obter pré-requisitos e etapas para habilitar o cache semântico, consulte Habilitar cache semântico para APIs do Azure OpenAI no Gerenciamento de API do Azure.
- Atualmente, esta política está em pré-visualização.
Nota
Defina os elementos da política e os elementos filho na ordem fornecida na declaração de política. Saiba mais sobre como definir ou editar políticas de Gerenciamento de API.
Modelos suportados
Use a política com APIs LLM adicionadas ao Gerenciamento de API do Azure que estão disponíveis por meio da API de Inferência de Modelo de IA do Azure.
Declaração de política
<llm-semantic-cache-lookup
score-threshold="similarity score threshold"
embeddings-backend-id ="backend entity ID for embeddings API"
embeddings-backend-auth ="system-assigned"
ignore-system-messages="true | false"
max-message-count="count" >
<vary-by>"expression to partition caching"</vary-by>
</llm-semantic-cache-lookup>
Atributos
Atributo | Description | Necessário | Predefinição |
---|---|---|---|
limiar-pontuação | Limite de pontuação de similaridade usado para determinar se uma resposta em cache deve retornar a um prompt. O valor é decimal entre 0,0 e 1,0. Mais informações. | Sim | N/A |
incorporações-backend-id | ID de back-end para OpenAI incorpora chamada de API. | Sim | N/A |
incorporações-backend-auth | Autenticação usada para o back-end da API de incorporação do Azure OpenAI. | Sim. Deve ser definido como system-assigned . |
N/A |
ignorar-sistema-mensagens | Booleano. Se definido como true , remove as mensagens do sistema de um prompt de conclusão de bate-papo GPT antes de avaliar a semelhança de cache. |
Não | false |
contagem máxima de mensagens | Se especificado, número de mensagens de diálogo restantes após as quais o cache é ignorado. | No | N/A |
Elementos
Nome | Descrição | Obrigatório |
---|---|---|
variar-por | Uma expressão personalizada determinada em tempo de execução cujo valor particiona o cache. Se vários vary-by elementos forem adicionados, os valores serão concatenados para criar uma combinação exclusiva. |
Não |
Utilização
- Secções políticas: entrada
- Escopos da política: global, produto, API, operação
- Gateways: v2
Notas de utilização
- Esta política só pode ser utilizada uma vez numa secção de política.
Exemplos
Exemplo com a política llm-semantic-cache-store correspondente
<policies>
<inbound>
<base />
<llm-semantic-cache-lookup
score-threshold="0.05"
embeddings-backend-id ="llm-backend"
embeddings-backend-auth ="system-assigned" >
<vary-by>@(context.Subscription.Id)</vary-by>
</llm-semantic-cache-lookup>
</inbound>
<outbound>
<llm-semantic-cache-store duration="60" />
<base />
</outbound>
</policies>
Políticas relacionadas
Conteúdos relacionados
Para obter mais informações sobre como trabalhar com políticas, consulte:
- Tutorial: Transforme e proteja sua API
- Referência de política para uma lista completa de declarações de política e suas configurações
- Expressões de política
- Definir ou editar políticas
- Reutilizar configurações de política
- Recompra de trechos de política
- Criar políticas usando o Microsoft Copilot no Azure