Respostas de cache para solicitações de API de modelo de linguagem grande

Artigo
10/17/2024

APLICA-SE A: todas as camadas do Gerenciamento de API

A política llm-semantic-cache-store armazena em cache as respostas às solicitações da API de conclusão do chat e da API de conclusão em um cache externo configurado. O cache das respostas reduz os requisitos de largura de banda e processamento impostos à API do OpenAI do Azure de back-end e diminui a latência percebida pelos consumidores da API.

Observação

Essa política precisa ter uma política correspondente de Obter respostas em cache para as solicitações da API do modelo de linguagem grande.
Para ver os pré-requisitos e etapas para habilitar o cache semântico, consulte Habilitar o cache semântico das APIs do OpenAI do Azure no Gerenciamento de API do Azure.
Atualmente, essa política está em versão prévia.

Observação

Defina os elementos da política e os elementos filho na ordem fornecida na declaração da política. Saiba mais sobre como definir e editar as políticas de Gerenciamento de API.

Modelos com suporte

Use a política com APIs de LLM adicionadas ao Gerenciamento de API do Azure que estão disponíveis por meio da API de Inferência do Modelo de IA do Azure.

Declaração de política

<llm-semantic-cache-store duration="seconds"/>

Atributos

Atributo	Descrição	Obrigatório	Padrão
duration	Vida útil das entradas armazenadas em cache, especificada em segundos. Expressões de política são permitidas.	Sim	N/D

Uso

Seções de política: saída
Escopos de política: global, produto, API, operação
Gateways: v2

Observações de uso

Essa política só pode ser usada uma vez em uma seção de política.
Se a pesquisa de cache falhar, a chamada à API que usa a operação relacionada ao cache não gerará um erro e a operação de cache será concluída com sucesso.

Exemplos

Exemplo com a política llm-semantic-cache-lookup correspondente

<policies>
    <inbound>
        <base />
        <llm-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="llm-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </llm-semantic-cache-lookup>
    </inbound>
    <outbound>
        <llm-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Para obter mais informações sobre como trabalhar com políticas, consulte:

Tutorial: Transformar e proteger sua API
Referência de Política para uma lista completa das instruções de política e suas configurações
Expressões de política
Definir ou editar políticas
Reutilizar configurações de política
Repositório de snippets de política
Criar políticas usando o Microsoft Copilot no Azure

Compartilhar via

Respostas de cache para solicitações de API de modelo de linguagem grande

Modelos com suporte

Declaração de política

Atributos

Uso

Observações de uso

Exemplos

Exemplo com a política llm-semantic-cache-lookup correspondente

Comentários

Recursos adicionais

Compartilhar via

Respostas de cache para solicitações de API de modelo de linguagem grande

Modelos com suporte

Declaração de política

Atributos

Uso

Observações de uso

Exemplos

Exemplo com a política llm-semantic-cache-lookup correspondente

Políticas relacionadas

Conteúdo relacionado

Comentários

Recursos adicionais