Obter respostas em cache de solicitações de API de modelo de linguagem grande

Artigo
10/17/2024

APLICA-SE A: Todas as camadas de gerenciamento de API

Use a política para executar a llm-semantic-cache-lookup pesquisa de cache de respostas a solicitações de API LLM (modelo de linguagem grande) a partir de um cache externo configurado, com base na proximidade vetorial do prompt a solicitações anteriores e em um limite de pontuação de similaridade especificado. O cache de resposta reduz a largura de banda e os requisitos de processamento impostos à API LLM de back-end e reduz a latência percebida pelos consumidores de API.

Nota

Essa política deve ter respostas de cache correspondentes à política de solicitações de API de modelo de linguagem grande.
Para obter pré-requisitos e etapas para habilitar o cache semântico, consulte Habilitar cache semântico para APIs do Azure OpenAI no Gerenciamento de API do Azure.
Atualmente, esta política está em pré-visualização.

Nota

Defina os elementos da política e os elementos filho na ordem fornecida na declaração de política. Saiba mais sobre como definir ou editar políticas de Gerenciamento de API.

Modelos suportados

Use a política com APIs LLM adicionadas ao Gerenciamento de API do Azure que estão disponíveis por meio da API de Inferência de Modelo de IA do Azure.

Declaração de política

<llm-semantic-cache-lookup
    score-threshold="similarity score threshold"
    embeddings-backend-id ="backend entity ID for embeddings API"
    embeddings-backend-auth ="system-assigned"             
    ignore-system-messages="true | false"      
    max-message-count="count" >
    <vary-by>"expression to partition caching"</vary-by>
</llm-semantic-cache-lookup>

Atributos

Atributo	Description	Necessário	Predefinição
limiar-pontuação	Limite de pontuação de similaridade usado para determinar se uma resposta em cache deve retornar a um prompt. O valor é decimal entre 0,0 e 1,0. Mais informações.	Sim	N/A
incorporações-backend-id	ID de back-end para OpenAI incorpora chamada de API.	Sim	N/A
incorporações-backend-auth	Autenticação usada para o back-end da API de incorporação do Azure OpenAI.	Sim. Deve ser definido como `system-assigned`.	N/A
ignorar-sistema-mensagens	Booleano. Se definido como `true`, remove as mensagens do sistema de um prompt de conclusão de bate-papo GPT antes de avaliar a semelhança de cache.	Não	false
contagem máxima de mensagens	Se especificado, número de mensagens de diálogo restantes após as quais o cache é ignorado.	No	N/A

Elementos

Nome	Descrição	Obrigatório
variar-por	Uma expressão personalizada determinada em tempo de execução cujo valor particiona o cache. Se vários `vary-by` elementos forem adicionados, os valores serão concatenados para criar uma combinação exclusiva.	Não

Utilização

Secções políticas: entrada
Escopos da política: global, produto, API, operação
Gateways: v2

Notas de utilização

Esta política só pode ser utilizada uma vez numa secção de política.

Exemplos

Exemplo com a política llm-semantic-cache-store correspondente

<policies>
    <inbound>
        <base />
        <llm-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="llm-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </llm-semantic-cache-lookup>
    </inbound>
    <outbound>
        <llm-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Para obter mais informações sobre como trabalhar com políticas, consulte:

Tutorial: Transforme e proteja sua API
Referência de política para uma lista completa de declarações de política e suas configurações
Expressões de política
Definir ou editar políticas
Reutilizar configurações de política
Recompra de trechos de política
Criar políticas usando o Microsoft Copilot no Azure

Partilhar via

Obter respostas em cache de solicitações de API de modelo de linguagem grande

Modelos suportados

Declaração de política

Atributos

Elementos

Utilização

Notas de utilização

Exemplos

Exemplo com a política llm-semantic-cache-store correspondente

Comentários

Recursos adicionais

Partilhar via

Obter respostas em cache de solicitações de API de modelo de linguagem grande

Modelos suportados

Declaração de política

Atributos

Elementos

Utilização

Notas de utilização

Exemplos

Exemplo com a política llm-semantic-cache-store correspondente

Políticas relacionadas

Conteúdos relacionados

Comentários

Recursos adicionais