Respostas de cache para solicitações de API de modelo de linguagem grande

Artigo
12/18/2024

APLICA-SE A: Todas as camadas de gerenciamento de API

A llm-semantic-cache-store política armazena em cache respostas à API de conclusão de chat e solicitações de API de conclusão em um cache externo configurado. O cache de resposta reduz os requisitos de largura de banda e processamento impostos à API OpenAI do Azure de back-end e reduz a latência percebida pelos consumidores de API.

Nota

Essa política deve ter uma política correspondente de Obter respostas em cache para solicitações de API de modelo de linguagem grande.
Para obter pré-requisitos e etapas para habilitar o cache semântico, consulte Habilitar cache semântico para APIs do Azure OpenAI no Gerenciamento de API do Azure.
Atualmente, esta política está em pré-visualização.

Nota

Defina os elementos da política e os elementos filho na ordem fornecida na declaração de política. Saiba mais sobre como definir ou editar políticas de Gerenciamento de API.

Modelos suportados

Use a política com APIs LLM adicionadas ao Gerenciamento de API do Azure que estão disponíveis por meio da API de Inferência de Modelo de IA do Azure.

Declaração de política

<llm-semantic-cache-store duration="seconds"/>

Atributos

Atributo	Description	Necessário	Predefinição
duration	Tempo de vida útil das entradas armazenadas em cache, especificado em segundos. São permitidas expressões de política.	Sim	N/A

Utilização

Secções políticas: saída
Escopos da política: global, produto, API, operação
Gateways: clássico, v2, consumo

Notas de utilização

Esta política só pode ser utilizada uma vez numa secção de política.
Se a pesquisa de cache falhar, a chamada de API que usa a operação relacionada ao cache não gerará um erro e a operação de cache será concluída com êxito.

Exemplos

Exemplo com a política llm-semantic-cache-lookup correspondente

<policies>
    <inbound>
        <base />
        <llm-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="llm-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </llm-semantic-cache-lookup>
    </inbound>
    <outbound>
        <llm-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Para obter mais informações sobre como trabalhar com políticas, consulte:

Tutorial: Transforme e proteja sua API
Referência de política para uma lista completa de declarações de política e suas configurações
Expressões de política
Definir ou editar políticas
Reutilizar configurações de política
Recompra de trechos de política
Kit de ferramentas de política de Gerenciamento de API do Azure
Criar políticas usando o Microsoft Copilot no Azure

Partilhar via

Respostas de cache para solicitações de API de modelo de linguagem grande

Modelos suportados

Declaração de política

Atributos

Utilização

Notas de utilização

Exemplos

Exemplo com a política llm-semantic-cache-lookup correspondente

Comentários

Recursos adicionais

Partilhar via

Respostas de cache para solicitações de API de modelo de linguagem grande

Modelos suportados

Declaração de política

Atributos

Utilização

Notas de utilização

Exemplos

Exemplo com a política llm-semantic-cache-lookup correspondente

Políticas relacionadas

Conteúdos relacionados

Comentários

Recursos adicionais