Memorizzare nella cache le risposte alle richieste API del modello linguistico di grandi dimensioni

SI APPLICA A: Tutti i livelli di Gestione API

I criteri llm-semantic-cache-store memorizzano nella cache le risposte all'API di completamento chat e alle richieste API di completamento in una cache esterna configurata. La memorizzazione delle risposte nella cache riduce la larghezza di banda e i requisiti di elaborazione imposti sull'API Azure OpenAI back-end e riduce la latenza percepita dagli utenti delle API.

Nota

Nota

Impostare gli elementi e gli elementi figlio del criterio nell'ordine specificato nell'istruzione del criterio. Altre informazioni su come impostare o modificare i criteri di API Management.

Modelli supportati

Usare i criteri con le API LLM aggiunte a Gestione API di Azure disponibili tramite l'API di inferenza del modello di intelligenza artificiale di Azure.

Istruzione del criterio

<llm-semantic-cache-store duration="seconds"/>

Attributi

Attributo Descrizione Richiesto Valore predefinito
duration Durata (TTL, Time-To-Live) delle voci memorizzate nella cache, in secondi. Le espressioni di criteri sono consentite. N/D

Utilizzo

Note sull'utilizzo

  • Questo criterio può essere usato una sola volta in una sezione di criteri.
  • Se la ricerca della cache non riesce, la chiamata API che usa l'operazione correlata alla cache non genera un errore e l'operazione della cache viene completata correttamente.

Esempi

Esempio con i criteri llm-semantic-cache-lookup corrispondenti

<policies>
    <inbound>
        <base />
        <llm-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="llm-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </llm-semantic-cache-lookup>
    </inbound>
    <outbound>
        <llm-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Per ulteriori informazioni sull'utilizzo dei criteri, vedere: