Memorizzare nella cache le risposte alle richieste API del modello linguistico di grandi dimensioni

Articolo
12/13/2024

SI APPLICA A: Tutti i livelli di Gestione API

I criteri llm-semantic-cache-store memorizzano nella cache le risposte all'API di completamento chat e alle richieste API di completamento in una cache esterna configurata. La memorizzazione delle risposte nella cache riduce la larghezza di banda e i requisiti di elaborazione imposti sull'API Azure OpenAI back-end e riduce la latenza percepita dagli utenti delle API.

Nota

Questi criteri devono avere criteri Ottenere risposte memorizzate nella cache alle richieste API del modello linguistico di grandi dimensioni corrispondenti.
Per i prerequisiti e i passaggi per abilitare la memorizzazione nella cache semantica, vedere Abilitare la memorizzazione nella cache semantica per le API Azure OpenAI in Gestione API di Azure.
Attualmente, questi criteri sono in anteprima.

Nota

Impostare gli elementi e gli elementi figlio del criterio nell'ordine specificato nell'istruzione del criterio. Altre informazioni su come impostare o modificare i criteri di API Management.

Modelli supportati

Usare i criteri con le API LLM aggiunte a Gestione API di Azure disponibili tramite l'API di inferenza del modello di intelligenza artificiale di Azure.

Istruzione del criterio

<llm-semantic-cache-store duration="seconds"/>

Attributi

Attributo	Descrizione	Richiesto	Valore predefinito
duration	Durata (TTL, Time-To-Live) delle voci memorizzate nella cache, in secondi. Le espressioni di criteri sono consentite.	Sì	N/D

Utilizzo

Sezioni del criterio: in uscita
Ambiti del criterio: globale, prodotto, API, operazione
Gateway: classico, v2, a consumo

Note sull'utilizzo

Questo criterio può essere usato una sola volta in una sezione di criteri.
Se la ricerca della cache non riesce, la chiamata API che usa l'operazione correlata alla cache non genera un errore e l'operazione della cache viene completata correttamente.

Esempi

Esempio con i criteri llm-semantic-cache-lookup corrispondenti

<policies>
    <inbound>
        <base />
        <llm-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="llm-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </llm-semantic-cache-lookup>
    </inbound>
    <outbound>
        <llm-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Per ulteriori informazioni sull'utilizzo dei criteri, vedere:

Esercitazione: trasformare e proteggere l'API
Informazioni di riferimento sui criteri per un elenco completo delle istruzioni dei criteri e delle relative impostazioni
Espressioni di criteri
Impostare o modificare criteri
Riutilizzare le configurazioni dei criteri
Repository dei frammenti di criteri
Toolkit dei criteri di Azure Gestione API
Creare criteri usando Microsoft Copilot in Azure

Condividi tramite

Memorizzare nella cache le risposte alle richieste API del modello linguistico di grandi dimensioni

Modelli supportati

Istruzione del criterio

Attributi

Utilizzo

Note sull'utilizzo

Esempi

Esempio con i criteri llm-semantic-cache-lookup corrispondenti

Commenti e suggerimenti

Risorse aggiuntive

Condividi tramite

Memorizzare nella cache le risposte alle richieste API del modello linguistico di grandi dimensioni

Modelli supportati

Istruzione del criterio

Attributi

Utilizzo

Note sull'utilizzo

Esempi

Esempio con i criteri llm-semantic-cache-lookup corrispondenti

Criteri correlati

Contenuto correlato

Commenti e suggerimenti

Risorse aggiuntive