Risposte memorizzate nella cache alle richieste dell'API Azure OpenAI

SI APPLICA A: Tutti i livelli di Gestione API

I azure-openai-semantic-cache-store criteri memorizzano nella cache le risposte all'API di completamento chat Azure OpenAI e alle richieste API di completamento in una cache esterna configurata. La memorizzazione delle risposte nella cache riduce la larghezza di banda e i requisiti di elaborazione imposti sull'API Azure OpenAI back-end e riduce la latenza percepita dagli utenti delle API.

Nota

Nota

Impostare gli elementi e gli elementi figlio del criterio nell'ordine specificato nell'istruzione del criterio. Altre informazioni su come impostare o modificare i criteri di Gestione API.

Modelli del Servizio OpenAI di Azure supportati

Il criterio viene usato usati con le API aggiunte a Gestione API dal Servizio OpenAI di Azure dei tipi seguenti:

Tipo di API Modelli supportati
Completamento della chat gpt-3.5

gpt-4
Completion gpt-3.5-turbo-instruct
Incorporamenti text-embedding-3-large

text-embedding-3-small

text-embedding-ada-002

Per maggiori informazioni, vedere Modelli di servizio OpenAI di Azure..

Istruzione del criterio

<azure-openai-semantic-cache-store duration="seconds"/>

Attributi

Attributo Descrizione Richiesto Valore predefinito
duration Durata (TTL, Time-To-Live) delle voci memorizzate nella cache, in secondi. Le espressioni di criteri sono consentite. N/D

Utilizzo

Note sull'utilizzo

  • Questo criterio può essere usato una sola volta in una sezione di criteri.
  • Se la ricerca della cache non riesce, la chiamata API che usa l'operazione correlata alla cache non genera un errore e l'operazione della cache viene completata correttamente.

Esempi

Esempio con i criteri azure-openai-semantic-cache-lookup corrispondenti

<policies>
    <inbound>
        <base />
        <azure-openai-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="azure-openai-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </azure-openai-semantic-cache-lookup>
    </inbound>
    <outbound>
        <azure-openai-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Per ulteriori informazioni sull'utilizzo dei criteri, vedere: