Cacheantworten für API-Anforderungen für große Sprachmodelle (LLM)
GILT FÜR: Alle API Management-Ebenen
Mit der llm-semantic-cache-store
-Richtlinie werden Antworten auf Anforderungen der Chat-Vervollständigungs-API und der Vervollständigungs-API in einem konfigurierten externen Cache zwischengespeichert. Das Zwischenspeichern von Antworten senkt die Bandbreitennutzung und die Prozessoranforderungen auf der Back-End-API von Azure OpenAI und verringert die Wartezeit für API-Consumer.
Hinweis
- Diese Richtlinie muss über eine entsprechende Richtlinie für Abrufen zwischengespeicherter Antworten auf API-Anforderungen von Azure OpenAI abrufen verfügen.
- Voraussetzungen und Schritte zum Aktivieren der semantischen Zwischenspeicherung finden Sie unter Aktivieren der semantischen Zwischenspeicherung für Azure OpenAI-APIs in Azure API Management.
- Derzeit befindet sich diese Richtlinie in der Vorschau.
Hinweis
Legen Sie die Elemente und untergeordneten Elemente einer Richtlinie in der Reihenfolge fest, die in der Richtlinienanweisung angegeben ist. Erfahren Sie mehr darüber, wie Sie API Management-Richtlinien festlegen oder bearbeiten.
Unterstützte Modelle
Verwenden Sie die Richtlinie mit LLM-APIs, die Azure API Management hinzugefügt wurden und über die Azure KI-Modellinferenz-API verfügbar sind.
Richtlinienanweisung
<llm-semantic-cache-store duration="seconds"/>
Attribute
Attribut | BESCHREIBUNG | Erforderlich | Standard |
---|---|---|---|
duration | Lebensdauer der zwischengespeicherten Einträge, angegeben in Sekunden. Richtlinienausdrücke sind zulässig. | Ja | – |
Verwendung
- Richtlinienabschnitte: outbound
- Richtlinienbereiche: global, product, API, operation
- Gateways: V2
Hinweise zur Verwendung
- Diese Richtlinie kann nur einmal in einem Richtlinienabschnitt verwendet werden.
- Wenn das Cache-Lookup fehlschlägt, löst der API-Aufruf, der den cachebezogenen Vorgang verwendet, keinen Fehler aus, und der Cachevorgang wird erfolgreich abgeschlossen.
Beispiele
Beispiel mit entsprechender Richtlinie „llm-semantic-cache-lookup“
<policies>
<inbound>
<base />
<llm-semantic-cache-lookup
score-threshold="0.05"
embeddings-backend-id ="llm-backend"
embeddings-backend-auth ="system-assigned" >
<vary-by>@(context.Subscription.Id)</vary-by>
</llm-semantic-cache-lookup>
</inbound>
<outbound>
<llm-semantic-cache-store duration="60" />
<base />
</outbound>
</policies>
Verwandte Richtlinien
Zugehöriger Inhalt
Weitere Informationen zum Arbeiten mit Richtlinien finden Sie hier:
- Tutorial: Transformieren und Schützen Ihrer API
- Unter Richtlinien für die API-Verwaltung finden Sie eine komplette Liste der Richtlinienanweisungen und der zugehörigen Einstellungen.
- Richtlinienausdrücke
- Festlegen oder Bearbeiten von Richtlinien
- Wiederverwenden von Richtlinienkonfigurationen
- Repository für Richtliniencodeausschnitte
- Erstellen von Richtlinien mit Microsoft Copilot in Azure