Büyük dil modeli API isteklerinin önbelleğe alınmış yanıtlarını alma

Makale
08/10/2024

UYGULANANLAR: Tüm API Management katmanları

İlkeyi llm-semantic-cache-lookup kullanarak, istemden önceki isteklere vektör yakınlığına ve belirtilen benzerlik puanı eşiğine göre yapılandırılmış bir dış önbellekten gelen büyük dil modeli (LLM) API isteklerine yönelik yanıtların önbellek aramasını gerçekleştirin. Yanıt önbelleğe alma, arka uç LLM API'sine uygulanan bant genişliğini ve işleme gereksinimlerini azaltır ve API tüketicileri tarafından algılanan gecikme süresini azaltır.

Not

Bu ilke, büyük dil modeli API istekleri ilkesine karşılık gelen önbellek yanıtlarına sahip olmalıdır.
Semantik önbelleğe almayı etkinleştirme önkoşulları ve adımları için bkz . Azure API Management'ta Azure OpenAI API'leri için anlamsal önbelleğe almayı etkinleştirme.
Şu anda bu ilke önizleme aşamasındadır.

Not

İlkenin öğelerini ve alt öğelerini ilke bildiriminde sağlanan sırayla ayarlayın. API Management ilkelerini ayarlama veya düzenleme hakkında daha fazla bilgi edinin.

Desteklenen modeller

İlkeyi, Azure AI Model Çıkarımı API'siyle kullanılabilen Azure API Management'a eklenen LLM API'leri ile kullanın.

İlke bildirimi

<llm-semantic-cache-lookup
    score-threshold="similarity score threshold"
    embeddings-backend-id ="backend entity ID for embeddings API"
    embeddings-backend-auth ="system-assigned"             
    ignore-system-messages="true | false"      
    max-message-count="count" >
    <vary-by>"expression to partition caching"</vary-by>
</llm-semantic-cache-lookup>

Özellikler

Öznitelik	Açıklama	Zorunlu	Varsayılan
puan eşiği	Bir istem için önbelleğe alınmış bir yanıtın döndürülip döndürülmeyeceğini belirlemek için kullanılan benzerlik puanı eşiği. Değer, 0,0 ile 1,0 arasında bir ondalık değerdir. Daha fazla bilgi edinin.	Yes	Yok
embeddings-backend-id	OpenAI ekleme API çağrısı için arka uç kimliği.	Yes	Yok
embeddings-backend-auth	Azure OpenAI ekleme API'leri arka ucu için kullanılan kimlik doğrulaması.	Evet. olarak ayarlanmalıdır `system-assigned`.	Yok
sistem iletilerini yoksay	Boole. olarak ayarlanırsa `true`, önbellek benzerliğini değerlendirmeden önce gpt sohbet tamamlama isteminden sistem iletilerini kaldırır.	Hayır	yanlış
max-message-count	Belirtilirse, önbelleğe alma atlanan kalan iletişim kutusu iletilerinin sayısı.	Hayır	YOK

Öğeler

Veri Akışı Adı	Açıklama	Gerekli
vary-by	Çalışma zamanında belirlenen ve değerini önbelleğe alan özel bir ifade. Birden çok `vary-by` öğe eklenirse, benzersiz bir birleşim oluşturmak için değerler birleştirilir.	Hayır

Kullanım

İlke bölümleri: gelen
İlke kapsamları: genel, ürün, API, işlem
Ağ geçitleri: v2

Kullanım notları

Bu ilke, ilke bölümünde yalnızca bir kez kullanılabilir.

Örnekler

karşılık gelen llm-semantic-cache-store ilkesine sahip örnek

<policies>
    <inbound>
        <base />
        <llm-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="llm-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </llm-semantic-cache-lookup>
    </inbound>
    <outbound>
        <llm-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

İlkelerle çalışma hakkında daha fazla bilgi için bkz:

Aracılığıyla paylaş

Büyük dil modeli API isteklerinin önbelleğe alınmış yanıtlarını alma

Desteklenen modeller

İlke bildirimi

Özellikler

Öğeler

Kullanım

Kullanım notları

Örnekler

karşılık gelen llm-semantic-cache-store ilkesine sahip örnek

Geri Bildirim

Ek kaynaklar

Aracılığıyla paylaş

Büyük dil modeli API isteklerinin önbelleğe alınmış yanıtlarını alma

Desteklenen modeller

İlke bildirimi

Özellikler

Öğeler

Kullanım

Kullanım notları

Örnekler

karşılık gelen llm-semantic-cache-store ilkesine sahip örnek

İlgili ilkeler

İlgili içerik

Geri Bildirim

Ek kaynaklar