Monitorování modelů pro generování aplikací AI (Preview)
Monitorování modelů v produkčním prostředí je zásadní součástí životního cyklu umělé inteligence. Změny v chování dat a spotřebitelů můžou v průběhu času ovlivnit generující aplikaci AI, což vede k zastaralým systémům, které negativně ovlivňují obchodní výsledky a zpřístupňují organizace rizikům dodržování předpisů, ekonomické a reputace.
Důležité
Monitorování modelů pro generování aplikací umělé inteligence je aktuálně ve verzi Public Preview. Tyto verze Preview jsou poskytovány bez smlouvy o úrovni služeb a nedoporučuje se pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti. Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.
Monitorování modelů Azure Machine Learning pro generování aplikací umělé inteligence usnadňuje monitorování aplikací LLM v produkčním prostředí za účelem zajištění bezpečnosti a kvality za účelem zajištění maximálního obchodního dopadu. Monitorování nakonec pomáhá udržovat kvalitu a bezpečnost vašich generovaných aplikací umělé inteligence. Mezi možnosti a integrace patří:
- Shromážděte produkční data pomocí kolektoru dat modelu.
- Zodpovědné metriky vyhodnocení AI, jako je uzemnění, soudržnost, plynulost, relevance a podobnost, které jsou interoperabilní s metrikami vyhodnocení toku výzvy služby Azure Machine Learning.
- Možnost konfigurovat výstrahy pro porušení na základě cílů organizace a pravidelně spouštět monitorování
- Využití výsledků na bohatém řídicím panelu v pracovním prostoru v studio Azure Machine Learning
- Integrace s metrikami vyhodnocení toku ve službě Azure Machine Learning, analýzou shromážděných produkčních dat a včasnými výstrahami a vizualizací metrik v průběhu času
Základní koncepty monitorování celkového modelu najdete v tématu Monitorování modelů pomocí služby Azure Machine Learning (Preview). V tomto článku se dozvíte, jak monitorovat generující aplikaci AI podporovanou spravovaným online koncovým bodem. Kroky, které provedete, jsou:
Metriky vyhodnocení
Metriky se generují pomocí následujících špičkových jazykových modelů GPT nakonfigurovaných s konkrétními pokyny pro vyhodnocení (šablony výzvy), které fungují jako modely vyhodnocovače pro úlohy pořadí a pořadí. Tato technika ukázala silné empirické výsledky a vysokou korelaci s lidským úsudkem ve srovnání se standardními metrikami vyhodnocení AI. Další informace o vyhodnocení toku výzvy najdete v tématu Odeslání hromadného testu a vyhodnocení toku (Preview) a další informace o vyhodnocení toku výzvy.
Podporují se tyto modely GPT a budou nakonfigurované jako prostředek Azure OpenAI:
- GPT-3.5 Turbo
- GPT-4
- GPT-4-32k
Podporují se následující metriky. Podrobnější informace o jednotlivých metrikách najdete v tématu Monitorování popisů metrik vyhodnocení a případů použití.
- Uzemnění: vyhodnotí, jak dobře vygenerované odpovědi modelu odpovídají informacím ze vstupního zdroje.
- Relevance: vyhodnocuje rozsah, ve kterém jsou generované odpovědi modelu relevantní a přímo souvisí s danými otázkami.
- Soudržnost: vyhodnocuje, jak dobře jazykový model dokáže plynule vytvářet výstupní toky, čte přirozeně a podobá se jazyku podobnému člověku.
- Plynulost: vyhodnocuje jazykovou znalost předpovězené odpovědi generující umělé inteligence. Vyhodnocuje, jak dobře vygenerovaný text dodržuje gramatická pravidla, syntaktické struktury a vhodné použití slovníku, což vede k lingvisticky správným a přirozeným zvukům odpovědí.
- Podobnost: vyhodnocuje podobnost mezi základní větou pravdy (nebo dokumentem) a prediktivní větou vygenerovanou modelem AI.
Požadavky na konfiguraci metrik
K měření bezpečnosti a kvality generování se vyžadují následující vstupy (názvy datových sloupců):
- text výzvy – původní zadaný dotaz (označovaný také jako "vstupy" nebo "otázka")
- text dokončení – konečné dokončení volání rozhraní API, které se vrátí (označované také jako "výstupy" nebo "odpověď")
- kontextový text – všechna kontextová data odesílaná do volání rozhraní API spolu s původní výzvou. Pokud například chcete získat výsledky hledání pouze z určitých certifikovaných zdrojů informací nebo webu, můžete je definovat v krocích vyhodnocení. Jedná se o volitelný krok, který je možné nakonfigurovat prostřednictvím toku výzvy.
- základní text pravdy – uživatelem definovaný text jako "zdroj pravdy" (volitelné)
Jaké parametry jsou nakonfigurované v datovém assetu, určují, jaké metriky můžete podle této tabulky vytvořit:
Metrika | Instrukce | Dokončení | Kontext | Základní pravda |
---|---|---|---|---|
Koherence | Požaduje se | Požaduje se | - | - |
Plynulost | Požaduje se | Požaduje se | - | - |
Uzemnění | Požaduje se | Požadováno | Požaduje se | - |
Relevance | Požaduje se | Požadováno | Požaduje se | - |
Podobnost | Požaduje se | Požadováno | - | Požaduje se |
Požadavky
- Prostředek Azure OpenAI: Musíte mít vytvořený prostředek Azure OpenAI s dostatečnou kvótou. Tento prostředek se používá jako koncový bod vyhodnocení.
- Spravovaná identita: Vytvořte spravovanou identitu přiřazenou uživatelem (UAI) a připojte ji k pracovnímu prostoru pomocí pokynů v tématu Připojení spravované identity přiřazené uživatelem pomocí rozhraní příkazového řádku v2s dostatečným přístupem k roli, jak je definováno v dalším kroku.
- Přístup k roli Pro přiřazení role s požadovanými oprávněními musíte mít u prostředku oprávnění vlastníka nebo Microsoft.Authorization/roleAssignments/write . Aktualizace připojení a oprávnění může trvat několik minut. Tyto další role musí být přiřazeny k vašemu rozhraní UAI:
- Prostředek: Pracovní prostor
- Role: Azure Machine Learning Datoví vědci
- Připojení pracovního prostoru: Podle těchto pokynů použijete spravovanou identitu, která představuje přihlašovací údaje ke koncovému bodu Azure OpenAI sloužícímu k výpočtu metrik monitorování. NEODSTRAŇUJTE připojení, jakmile se použije v toku.
- Verze rozhraní API: 2023-03-15-preview
- Nasazení toku výzvy: Podle těchto pokynů vytvořte modul runtime toku výzvy, spusťte tok a ujistěte se, že je vaše nasazení nakonfigurované pomocí tohoto článku jako průvodce.
- Vstupy a výstupy toku: Při vytváření monitoru je potřeba správně pojmenovat výstupy toku a pamatovat si tyto názvy sloupců. V tomto článku používáme následující:
- Vstupy (povinné): "prompt"
- Výstupy (povinné): "completion"
- Výstupy (volitelné): "context" | "základní pravda"
- Shromažďování dat: V části Nasazení (krok 2 průvodce nasazením toku výzvy) musí být pomocí kolektoru dat modelu povolen přepínač Odvozování dat.
- Výstupy: V části Výstupy (krok 3 průvodce nasazením toku výzvy ) potvrďte, že jste vybrali požadované výstupy uvedené výše (například dokončení | kontext | ground_truth), které splňují vaše požadavky na konfiguraci metriky.
- Vstupy a výstupy toku: Při vytváření monitoru je potřeba správně pojmenovat výstupy toku a pamatovat si tyto názvy sloupců. V tomto článku používáme následující:
Poznámka:
Pokud je vaše výpočetní instance za virtuální sítí, přečtěte si téma Izolace sítě v toku výzvy.
Vytvoření monitoru
Vytvoření monitorování na stránce Přehled monitorování
Konfigurace základního nastavení monitorování
V průvodci vytvořením monitorování změňte typ úlohy modelu na výzvu a dokončení, jak je znázorněno (A) na snímku obrazovky.
Konfigurace datového assetu
Pokud jste použili kolektor dat modelu, vyberte dva datové prostředky (vstupy a výstupy).
Výběr monitorovacích signálů
- Na snímku obrazovky nakonfigurujte připojení pracovního prostoru (A ).
- Zadejte název nasazení vyhodnocovače Azure OpenAI (B).
- (Volitelné) Spojte vstupy a výstupy produkčních dat: Vstupy a výstupy produkčního modelu se automaticky připojí službou Monitorování (C). V případě potřeby ji můžete přizpůsobit, ale nevyžaduje se žádná akce. Ve výchozím nastavení je sloupec spojení id korelace.
- (Volitelné) Konfigurace prahových hodnot metrik: Přijatelné skóre pro každou instanci je pevné na 3/5. Můžete upravit přijatelnou celkovou míru předávání v % mezi rozsahem [1,99] %
Ručně zadejte názvy sloupců z toku výzvy (E). Standardní názvy jsou ("prompt" | "dokončení" | "context" | "ground_truth") ale můžete ho nakonfigurovat podle vašeho datového assetu.
(volitelné) Nastavení vzorkovací frekvence (F)
Jakmile je nakonfigurovaný, signál už nebude zobrazovat upozornění.
Konfigurace oznámení
Není vyžadována žádná akce. V případě potřeby můžete nakonfigurovat více příjemců.
Potvrzení konfigurace monitorovacího signálu
Po úspěšné konfiguraci by váš monitor měl vypadat takto:
Potvrzení stavu monitorování
Pokud je úloha kanálu monitorování úspěšně nakonfigurovaná, zobrazí se následující:
Využití výsledků
Stránka Přehled monitorování
Přehled monitorování poskytuje přehled výkonu signálu. Další informace získáte na stránce s podrobnostmi o signálu.
Stránka s podrobnostmi signálu
Stránka podrobností signálu umožňuje zobrazit metriky v průběhu času (A) a zobrazit histogramy distribuce (B).
Řešení výstrah
Je možné upravit pouze prahové hodnoty signálu. Přijatelné skóre je pevné na 3/5 a je možné upravit pouze pole přijatelné celkové procento předávání.