Monitorování modelů pro generování aplikací AI (Preview)

Monitorování modelů v produkčním prostředí je zásadní součástí životního cyklu umělé inteligence. Změny v chování dat a spotřebitelů můžou v průběhu času ovlivnit generující aplikaci AI, což vede k zastaralým systémům, které negativně ovlivňují obchodní výsledky a zpřístupňují organizace rizikům dodržování předpisů, ekonomické a reputace.

Důležité

Monitorování modelů pro generování aplikací umělé inteligence je aktuálně ve verzi Public Preview. Tyto verze Preview jsou poskytovány bez smlouvy o úrovni služeb a nedoporučuje se pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti. Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.

Monitorování modelů Azure Machine Learning pro generování aplikací umělé inteligence usnadňuje monitorování aplikací LLM v produkčním prostředí za účelem zajištění bezpečnosti a kvality za účelem zajištění maximálního obchodního dopadu. Monitorování nakonec pomáhá udržovat kvalitu a bezpečnost vašich generovaných aplikací umělé inteligence. Mezi možnosti a integrace patří:

  • Shromážděte produkční data pomocí kolektoru dat modelu.
  • Zodpovědné metriky vyhodnocení AI, jako je uzemnění, soudržnost, plynulost, relevance a podobnost, které jsou interoperabilní s metrikami vyhodnocení toku výzvy služby Azure Machine Learning.
  • Možnost konfigurovat výstrahy pro porušení na základě cílů organizace a pravidelně spouštět monitorování
  • Využití výsledků na bohatém řídicím panelu v pracovním prostoru v studio Azure Machine Learning
  • Integrace s metrikami vyhodnocení toku ve službě Azure Machine Learning, analýzou shromážděných produkčních dat a včasnými výstrahami a vizualizací metrik v průběhu času ​

Základní koncepty monitorování celkového modelu najdete v tématu Monitorování modelů pomocí služby Azure Machine Learning (Preview). V tomto článku se dozvíte, jak monitorovat generující aplikaci AI podporovanou spravovaným online koncovým bodem. Kroky, které provedete, jsou:

Metriky vyhodnocení

Metriky se generují pomocí následujících špičkových jazykových modelů GPT nakonfigurovaných s konkrétními pokyny pro vyhodnocení (šablony výzvy), které fungují jako modely vyhodnocovače pro úlohy pořadí a pořadí. Tato technika ukázala silné empirické výsledky a vysokou korelaci s lidským úsudkem ve srovnání se standardními metrikami vyhodnocení AI. Další informace o vyhodnocení toku výzvy najdete v tématu Odeslání hromadného testu a vyhodnocení toku (Preview) a další informace o vyhodnocení toku výzvy.

Podporují se tyto modely GPT a budou nakonfigurované jako prostředek Azure OpenAI:

  • GPT-3.5 Turbo
  • GPT-4
  • GPT-4-32k

Podporují se následující metriky. Podrobnější informace o jednotlivých metrikách najdete v tématu Monitorování popisů metrik vyhodnocení a případů použití.

  • Uzemnění: vyhodnotí, jak dobře vygenerované odpovědi modelu odpovídají informacím ze vstupního zdroje.
  • Relevance: vyhodnocuje rozsah, ve kterém jsou generované odpovědi modelu relevantní a přímo souvisí s danými otázkami.
  • Soudržnost: vyhodnocuje, jak dobře jazykový model dokáže plynule vytvářet výstupní toky, čte přirozeně a podobá se jazyku podobnému člověku.
  • Plynulost: vyhodnocuje jazykovou znalost předpovězené odpovědi generující umělé inteligence. Vyhodnocuje, jak dobře vygenerovaný text dodržuje gramatická pravidla, syntaktické struktury a vhodné použití slovníku, což vede k lingvisticky správným a přirozeným zvukům odpovědí.
  • Podobnost: vyhodnocuje podobnost mezi základní větou pravdy (nebo dokumentem) a prediktivní větou vygenerovanou modelem AI.

Požadavky na konfiguraci metrik

K měření bezpečnosti a kvality generování se vyžadují následující vstupy (názvy datových sloupců):

  • text výzvy – původní zadaný dotaz (označovaný také jako "vstupy" nebo "otázka")
  • text dokončení – konečné dokončení volání rozhraní API, které se vrátí (označované také jako "výstupy" nebo "odpověď")
  • kontextový text – všechna kontextová data odesílaná do volání rozhraní API spolu s původní výzvou. Pokud například chcete získat výsledky hledání pouze z určitých certifikovaných zdrojů informací nebo webu, můžete je definovat v krocích vyhodnocení. Jedná se o volitelný krok, který je možné nakonfigurovat prostřednictvím toku výzvy.
  • základní text pravdy – uživatelem definovaný text jako "zdroj pravdy" (volitelné)

Jaké parametry jsou nakonfigurované v datovém assetu, určují, jaké metriky můžete podle této tabulky vytvořit:

Metrika Instrukce Dokončení Kontext Základní pravda
Koherence Požaduje se Požaduje se - -
Plynulost Požaduje se Požaduje se - -
Uzemnění Požaduje se Požadováno Požaduje se -
Relevance Požaduje se Požadováno Požaduje se -
Podobnost Požaduje se Požadováno - Požaduje se

Požadavky

  1. Prostředek Azure OpenAI: Musíte mít vytvořený prostředek Azure OpenAI s dostatečnou kvótou. Tento prostředek se používá jako koncový bod vyhodnocení.
  2. Spravovaná identita: Vytvořte spravovanou identitu přiřazenou uživatelem (UAI) a připojte ji k pracovnímu prostoru pomocí pokynů v tématu Připojení spravované identity přiřazené uživatelem pomocí rozhraní příkazového řádku v2s dostatečným přístupem k roli, jak je definováno v dalším kroku.
  3. Přístup k roli Pro přiřazení role s požadovanými oprávněními musíte mít u prostředku oprávnění vlastníka nebo Microsoft.Authorization/roleAssignments/write . Aktualizace připojení a oprávnění může trvat několik minut. Tyto další role musí být přiřazeny k vašemu rozhraní UAI:
    • Prostředek: Pracovní prostor
    • Role: Azure Machine Learning Datoví vědci
  4. Připojení pracovního prostoru: Podle těchto pokynů použijete spravovanou identitu, která představuje přihlašovací údaje ke koncovému bodu Azure OpenAI sloužícímu k výpočtu metrik monitorování. NEODSTRAŇUJTE připojení, jakmile se použije v toku.
    • Verze rozhraní API: 2023-03-15-preview
  5. Nasazení toku výzvy: Podle těchto pokynů vytvořte modul runtime toku výzvy, spusťte tok a ujistěte se, že je vaše nasazení nakonfigurované pomocí tohoto článku jako průvodce.
    • Vstupy a výstupy toku: Při vytváření monitoru je potřeba správně pojmenovat výstupy toku a pamatovat si tyto názvy sloupců. V tomto článku používáme následující:
      • Vstupy (povinné): "prompt"
      • Výstupy (povinné): "completion"
        • Výstupy (volitelné): "context" | "základní pravda"
    • Shromažďování dat: V části Nasazení (krok 2 průvodce nasazením toku výzvy) musí být pomocí kolektoru dat modelu povolen přepínač Odvozování dat.
    • Výstupy: V části Výstupy (krok 3 průvodce nasazením toku výzvy ) potvrďte, že jste vybrali požadované výstupy uvedené výše (například dokončení | kontext | ground_truth), které splňují vaše požadavky na konfiguraci metriky.

Poznámka:

Pokud je vaše výpočetní instance za virtuální sítí, přečtěte si téma Izolace sítě v toku výzvy.

Vytvoření monitoru

Vytvoření monitorování na stránce Přehled monitorování Snímek obrazovky znázorňující, jak vytvořit monitor pro vaši aplikaci

Konfigurace základního nastavení monitorování

V průvodci vytvořením monitorování změňte typ úlohy modelu na výzvu a dokončení, jak je znázorněno (A) na snímku obrazovky. Snímek obrazovky znázorňující, jak nakonfigurovat základní nastavení monitorování pro generování umělé inteligence

Konfigurace datového assetu

Pokud jste použili kolektor dat modelu, vyberte dva datové prostředky (vstupy a výstupy). Snímek obrazovky znázorňující, jak nakonfigurovat datový asset pro generování umělé inteligence

Výběr monitorovacích signálů

Snímek obrazovky s možnostmi konfigurace monitorovacího signálu v dialogovém okně nastavení monitorování

  1. Na snímku obrazovky nakonfigurujte připojení pracovního prostoru (A ).
    1. Připojení k pracovnímu prostoru musíte nakonfigurovat správně, nebo se zobrazí toto: Snímek obrazovky znázorňující nekonfigurovaný monitorovací signál
  2. Zadejte název nasazení vyhodnocovače Azure OpenAI (B).
  3. (Volitelné) Spojte vstupy a výstupy produkčních dat: Vstupy a výstupy produkčního modelu se automaticky připojí službou Monitorování (C). V případě potřeby ji můžete přizpůsobit, ale nevyžaduje se žádná akce. Ve výchozím nastavení je sloupec spojení id korelace.
  4. (Volitelné) Konfigurace prahových hodnot metrik: Přijatelné skóre pro každou instanci je pevné na 3/5. Můžete upravit přijatelnou celkovou míru předávání v % mezi rozsahem [1,99] %
  • Ručně zadejte názvy sloupců z toku výzvy (E). Standardní názvy jsou ("prompt" | "dokončení" | "context" | "ground_truth") ale můžete ho nakonfigurovat podle vašeho datového assetu.

  • (volitelné) Nastavení vzorkovací frekvence (F)

  • Jakmile je nakonfigurovaný, signál už nebude zobrazovat upozornění. Snímek obrazovky znázorňující konfigurace monitorovacího signálu bez upozornění

Konfigurace oznámení

Není vyžadována žádná akce. V případě potřeby můžete nakonfigurovat více příjemců. Snímek obrazovky zobrazující konfigurace oznámení monitorování

Potvrzení konfigurace monitorovacího signálu

Po úspěšné konfiguraci by váš monitor měl vypadat takto: Snímek obrazovky znázorňující nakonfigurovaný monitorovací signál

Potvrzení stavu monitorování

Pokud je úloha kanálu monitorování úspěšně nakonfigurovaná, zobrazí se následující: Snímek obrazovky znázorňující úspěšně nakonfigurovaný monitorovací signál

Využití výsledků

Stránka Přehled monitorování

Přehled monitorování poskytuje přehled výkonu signálu. Další informace získáte na stránce s podrobnostmi o signálu. Snímek obrazovky zobrazující přehled monitoru

Stránka s podrobnostmi signálu

Stránka podrobností signálu umožňuje zobrazit metriky v průběhu času (A) a zobrazit histogramy distribuce (B).

Snímek obrazovky se stránkou podrobností signálu

Řešení výstrah

Je možné upravit pouze prahové hodnoty signálu. Přijatelné skóre je pevné na 3/5 a je možné upravit pouze pole přijatelné celkové procento předávání. Snímek obrazovky s úpravou prahových hodnot signálu

Další kroky