Poznámka k transparentnosti pro bezpečnostní vyhodnocení azure AI Studia
Důležité
Položky označené (Preview) v tomto článku jsou aktuálně ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti. Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.
Co je poznámka průhlednosti
Systém AI zahrnuje nejen technologii, ale také lidi, kteří ho budou používat, osoby, které ho budou ovlivněny, a prostředí, ve kterém je nasazené. Vytvoření systému, který je vhodný pro zamýšlený účel, vyžaduje pochopení toho, jak technologie funguje, jaké jsou jeho schopnosti a omezení a jak dosáhnout nejlepšího výkonu. Poznámky Microsoftu k transparentnosti jsou určené k tomu, aby vám pomohly pochopit, jak naše technologie AI funguje, volby, které mohou vlastníci systému ovlivnit výkon a chování systému, a význam myšlení celého systému, včetně technologií, lidí a prostředí. Poznámky transparentnosti můžete použít při vývoji nebo nasazení vlastního systému nebo je můžete sdílet s lidmi, kteří budou váš systém používat nebo budou ovlivněni.
Poznámky Microsoftu k transparentnosti jsou součástí širšího úsilí Microsoftu, aby naše principy AI zavedly do praxe. Další informace najdete v zásadách Microsoft AI.
Základní informace o bezpečnostních vyhodnoceních azure AI Studia
Úvod
Vyhodnocení bezpečnosti azure AI Studia umožňuje uživatelům vyhodnotit výstup své generující aplikace AI pro rizika textového obsahu: nenávistný a nespravedlivý obsah, sexuální obsah, násilné obsah, obsah související s vlastním poškozením, ohrožení zabezpečení jailbreakem. Vyhodnocení bezpečnosti vám také může pomoct vygenerovat nežádoucí datové sady, které vám pomůžou zrychlit a rozšířit operaci seskupování z red-teamingu. Vyhodnocení bezpečnosti Azure AI Studia odráží závazky Microsoftu, aby se zajistilo, že systémy AI jsou bezpečně a zodpovědně sestavené a zprovozní naše zásady zodpovědné umělé inteligence.
Klíčové pojmy
- Nenávistný a nespravedlivý obsah se týká jakéhokoli jazyka, který se týká nenávisti vůči jednotlivcům a sociálním skupinám, včetně rasy, etnické příslušnosti, státní příslušnosti, pohlaví, sexuální orientace, náboženství, statusu přistěhovalectví, schopnosti, osobního vzhledu a velikosti těla. K nespravedlivosti dochází v případě, že systémy umělé inteligence zachází s sociálními skupinami nebo představují nespravedlivě, vytvářejí nebo přispívají k společenským nepravostem.
- Sexuální obsah zahrnuje jazyk týkající se anatomických orgánů a pohlavních orgánů, romantických vztahů, jednání vylíčená erotickými výrazy, těhotenství, fyzické sexuální činy (včetně napadení nebo sexuálního násilí), prostituce, pornografie a sexuálního zneužívání.
- Násilné obsah zahrnuje jazyk týkající se fyzických akcí určených k poškození, zranění, poškození nebo zabití někoho nebo něčeho. Obsahuje také popis zbraní a zbraní (a souvisejících entit, jako jsou výrobci a sdružení).
- Obsah související s vlastním poškozením zahrnuje jazyk týkající se akcí určených k poškození, zranění nebo poškození těla nebo zabití sebe sama.
- Jailbreak, přímé útoky na výzvy nebo útoky prostřednictvím injektáže uživatelů, odkazují na uživatele, kteří manipulují s výzvami k vložení škodlivých vstupů do LLM za účelem zkreslení akcí a výstupů. Příkladem příkazu s jailbreakem je útok DAN (DoYthing Now), který může oklamat LLM do nevhodné generace obsahu nebo ignorovat systémová omezení.
- Míra vad (riziko obsahu) je definována jako procento instancí v testovací datové sadě, které překračují prahovou hodnotu v rozsahu závažnosti nad celou velikost datové sady.
- Red-teaming má historicky popsaný systematický nežádoucí útoky pro testování ohrožení zabezpečení. S nárůstem velkých jazykových modelů (LLM) se termín rozšířil nad rámec tradiční kybernetické bezpečnosti a vyvinul se v běžném používání, aby popsal mnoho druhů sondování, testování a útoku na systémy AI. U LLM mohou neškodné i nežádoucí použití vést k potenciálně škodlivým výstupům, které mohou mít mnoho forem, včetně škodlivého obsahu, jako je nenávistná řeč, vyvolání nebo vyvolání násilí, odkaz na obsah související se sebepoškozováním nebo sexuálním obsahem.
Možnosti
Chování systému
Azure AI Studio zřídí model Azure OpenAI GPT-4 a orchestruje nežádoucí útoky na vaši aplikaci za účelem vygenerování vysoce kvalitní testovací datové sady. Potom zřídí další model GPT-4 pro přidávání poznámek k testovací datové sadě pro obsah a zabezpečení. Uživatelé poskytují koncový bod generující aplikace AI, který chtějí testovat, a vyhodnocení bezpečnosti vypíše statickou testovací datovou sadu s tímto koncovým bodem spolu s popiskem rizika obsahu (velmi nízká, nízká, střední, vysoká) a odůvodněním popisku generovaného AI.
Případy použití
Zamýšlené použití
Bezpečnostní vyhodnocení nejsou určená k žádnému účelu, než k vyhodnocení rizik obsahu a ohrožení zabezpečení jailbreaku vaší generující aplikace AI:
- Vyhodnocení před nasazením generující aplikace AI: Vyhodnocení pomocí průvodce vyhodnocením v sadě Azure AI Studio nebo sadou Azure AI Python SDK můžou vyhodnocení bezpečnosti vyhodnotit automatizovaným způsobem, jak vyhodnotit potenciální obsah nebo bezpečnostní rizika.
- Rozšiřování operací s červeným seskupováním: Pomocí nežádoucího simulátoru můžou bezpečnostní vyhodnocení simulovat nežádoucí interakce s vaší generační aplikací AI, aby se pokusila odhalit obsah a bezpečnostní rizika.
- Komunikace obsahu a bezpečnostních rizik zúčastněným stranám: Pomocí nástroje Azure AI Studio můžete sdílet přístup k projektu Azure AI Studio s výsledky vyhodnocení bezpečnosti s auditory nebo zúčastněnými stranami dodržování předpisů.
Důležité informace o výběru případu použití
Zákazníkům doporučujeme využít bezpečnostní hodnocení Azure AI Studio ve svých inovativních řešeních nebo aplikacích. Tady jsou ale některé aspekty při výběru případu použití:
- Hodnocení bezpečnosti by měla zahrnovat human-in-the-loop: Použití automatizovaných hodnocení, jako je bezpečnostní vyhodnocení Azure AI Studio, by mělo zahrnovat lidské revidující, jako jsou odborníci na domény, aby posoudili, jestli byla vaše aplikace generující AI důkladně testována před nasazením koncovým uživatelům.
- Vyhodnocení bezpečnosti nezahrnuje celkové komplexní pokrytí: I když bezpečnostní vyhodnocení můžou poskytnout způsob, jak rozšířit testování potenciálního obsahu nebo bezpečnostních rizik, nebyl navržen tak, aby nahradil ruční operace seskupování red-seskupování speciálně zaměřené na doménu vaší aplikace, případy použití a typ koncových uživatelů.
- Podporované scénáře:
- Pro nežádoucí simulaci: Zodpovězení otázek, vícenásobný chat, shrnutí, vyhledávání, přepsání textu, generování neuzemněného a uzemněného obsahu.
- Automatická poznámka: Zodpovězení otázek a vícenásobný chat.
- Služba se v současné době nejlépe používá s anglickou doménou pouze pro textové generace. Další funkce, včetně podpory více modelů, se budou zvažovat pro budoucí verze.
- Pokrytí rizik obsahu, která jsou součástí vyhodnocení bezpečnosti, je podvzorkováno z omezeného počtu skupin a témat:
- Metrika nenávisti a nespravedlivosti zahrnuje určité pokrytí omezeného počtu skupin pro demografický faktor pohlaví (například muži, ženy, nebinární lidé) a rasu, rasu, etnicititu a státní příslušnost (například černošská, mexická, evropská). Ne všechny genderové a rasové skupiny, rodové, etnické a státní příslušnosti jsou pokryty. Další demografické faktory, které jsou relevantní pro nenávist a nespravedlivost, v současné době nemají pokrytí (například postižení, asymetrie, náboženství).
- Metriky pro obsah související se sexuálním, násilném a sebepoškozováním jsou založeny na předběžné konceptualizaci těchto škod, které jsou méně vyvinuté než nenávist a nespravedlivost. To znamená, že můžeme dosáhnout méně silných tvrzení o pokrytí měření a o tom, jak dobře měření představují různé způsoby, jak k těmto škodám může dojít. Pokrytí těchto typů obsahu zahrnuje omezený počet témat souvisejících se sexem (například sexuální násilí, vztahy, sexuální činy), násilím (například zneužíváním, poškozením ostatních, únosem) a sebepoškozováním (například úmyslná smrt, úmyslná smrt, úmyslné zranění, poruchy stravování).
- Bezpečnostní hodnocení Azure AI Studio v současné době neumožňují moduly plug-in ani rozšiřitelnost.
- Abychom zachovali kvalitu v aktualizovaném stavu a zlepšili pokrytí, zaměříme se na četnost budoucích verzí vylepšení nežádoucí simulace a poznámek služby.
Technická omezení, provozní faktory a rozsahy
- Obor rozsáhlých jazykových modelů (LLM) se neustále vyvíjí rychlým tempem, což vyžaduje průběžné vylepšování technik hodnocení, aby se zajistilo bezpečné a spolehlivé nasazení systému AI. Bezpečnostní vyhodnocení Azure AI Studio odráží závazek Microsoftu pokračovat v inovování v oblasti hodnocení LLM. Snažíme se poskytnout nejlepší nástroje, které vám pomůžou vyhodnotit bezpečnost vašich generovaných aplikací umělé inteligence, ale rozpoznat efektivní hodnocení je průběžná práce.
- Přizpůsobení bezpečnostních hodnocení azure AI Studio je v současné době omezené. Očekáváme, že uživatelé zadají vstupní koncový bod aplikace umělé inteligence a naše služba vypíše statickou datovou sadu označenou rizikem obsahu.
- Nakonec je třeba poznamenat, že tento systém neautomatizuje žádné akce ani úlohy, pouze poskytuje vyhodnocení výstupů generující aplikace AI, které by měl zkontrolovat člověk rozhodovací tvůrce ve smyčce před tím, než se rozhodne nasadit generování aplikace nebo systému AI do produkčního prostředí pro koncové uživatele.
Výkon systému
Osvědčené postupy pro zlepšení výkonu systému
- Při účtování vaší domény, která může s určitým obsahem zacházet citlivěji než s jiným, zvažte úpravu prahové hodnoty pro výpočet míry vad.
- Při použití automatizovaných bezpečnostních vyhodnocení může někdy dojít k chybě v popiscích generovaných AI pro závažnost rizika obsahu nebo jeho odůvodnění. Existuje sloupec ruční zpětné vazby člověka, který umožňuje ověření automatizovaných výsledků vyhodnocení bezpečnosti mezi lidmi.
Vyhodnocení bezpečnostních hodnocení Azure AI Studio
Metody vyhodnocení
U všech podporovaných typů rizik obsahu jsme interně kontrolovali kvalitu porovnáním míry přibližných shod mezi lidmi, kteří používají škálu závažnosti 0–7, a automatizovaný anotátor bezpečnostních hodnocení používá také měřítko závažnosti 0–7 u stejných datových sad. Pro každou rizikovou oblast jsme měli jak lidské popisovače, tak automatizovaný popisek annotátoru 500 anglického jednoúčelového textu. Popisovače lidí a automatizovaný anotátor nepoužívaly přesně stejné verze pokynů pro poznámky; zatímco pokyny automatizovaného anotátoru vycházejí z pokynů pro lidi, liší se od různých stupňů (s tím, jak se pravidla nenávisti a nespravedlivosti rozbíhají nejvíce). Navzdory těmto mírným až mírným rozdílům věříme, že je stále užitečné sdílet obecné trendy a přehledy z našeho porovnání přibližných shod. V našich porovnáních jsme hledali shody s 2úrovňovou tolerancí (kde popisek člověka přesně odpovídal popisku automatizovaného anotátoru nebo byl ve 2 úrovních nad nebo nižší závažností), odpovídá tolerance na úrovni 1 a odpovídá tolerance na úrovni 0.
Výsledky vyhodnocení
Celkově jsme viděli vysokou míru přibližných shod napříč riziky sebepoškozování a sexuálního obsahu napříč všemi úrovněmi tolerance. V případě násilí a nenávisti a nespravedlivosti byla přibližná míra shody na úrovních tolerance nižší. Tyto výsledky byly částečně způsobeny zvýšeným rozdílem v obsahu zásad poznámek pro lidské popisovače a automatizované poznámky, a částečně kvůli zvýšenému množství obsahu a složitosti v konkrétních pokynech.
I když jsou naše porovnání mezi entitami, které se mírně používají k mírně odlišným pokynům pro poznámky (a nejsou tedy standardními porovnáními smluv s lidským modelem), poskytují tato porovnání odhad kvality, kterou můžeme očekávat od bezpečnostních vyhodnocení Azure AI Studio s ohledem na parametry těchto porovnání. Konkrétně jsme se podívali pouze na anglické ukázky, takže naše závěry nemusí být generalizovány v jiných jazycích. Každá ukázka datové sady se také skládá z jediného otočení, takže k ověření generalizovatelnosti našich výsledků vyhodnocení ve scénářích s vícenásobným otáčením (například zpětná konverzace včetně uživatelských dotazů a systémových odpovědí) jsou potřeba další experimenty. Typy vzorků použitých v těchto testovacích datových sadách můžou také výrazně ovlivnit přibližnou míru shody mezi lidskými popisky a automatizovaným poznámkami – pokud jsou vzorky snadněji označené (například pokud jsou všechny vzorky bez rizik obsahu), můžeme očekávat, že přibližná míra shody bude vyšší. Kvalita lidských popisků pro vyhodnocení by také mohla ovlivnit generalizaci našich zjištění.
Vyhodnocení a integrace bezpečnostních hodnocení azure AI Studia pro vaše použití
Měření a vyhodnocení aplikace generující umělé inteligence je důležitou součástí holistického přístupu ke správě rizik umělé inteligence. Bezpečnostní hodnocení Azure AI Studio doplňují a měly by se používat společně s jinými postupy řízení rizik umělé inteligence. Odborníci na domény a revidující lidské smyčky by měli při používání vyhodnocení bezpečnosti asistované umělé inteligence při vytváření návrhu, vývoje a cyklu nasazení aplikací umělé inteligence poskytovat správný dohled. Měli byste porozumět omezením a zamýšleným používáním bezpečnostních hodnocení a pečlivě se nespoléhejte na výstupy vytvořené vyhodnoceními bezpečnosti asistované službou Azure AI Studio v izolaci.
Vzhledem k ne deterministické povaze LLM může docházet k falešně negativním nebo pozitivním výsledkům, jako je například vysoká úroveň závažnosti násilného obsahu, která je označená jako "velmi nízká" nebo "nízká". Kromě toho výsledky vyhodnocení můžou mít pro různé cílové skupiny různé významy. Například vyhodnocení bezpečnosti může generovat popisek "nízké" závažnosti násilného obsahu, který nemusí odpovídat definici lidského revidujících, jak závažný může být konkrétní násilné obsah. V Nástroji Azure AI Studio poskytujeme sloupec zpětné vazby člověka s palcem nahoru a palcem dolů při prohlížení výsledků vyhodnocení, abychom zjistili, které instance byly schváleny nebo označeny jako nesprávné od kontrolorem lidí. Vezměte v úvahu kontext toho, jak by vaše výsledky mohly být interpretovány pro rozhodování jinými uživateli, můžete sdílet hodnocení s výsledky a ověřit výsledky vyhodnocení s odpovídající úrovní kontroly na úrovni rizika v prostředí, ve kterém každá generující aplikace AI funguje.
Další informace o zodpovědné umělé inteligenci
- Principy Microsoft AI
- Prostředky zodpovědné za AI od Microsoftu
- Kurzy Microsoft Azure Learning týkající se zodpovědné umělé inteligence
Další informace o bezpečnostních hodnoceních azure AI Studio
- Dokumentace ke konceptům Microsoftu týkající se našeho přístupu k vyhodnocování aplikací generující umělé inteligence
- Dokumentace ke konceptu Microsoftu o tom, jak funguje vyhodnocení bezpečnosti
- Dokumentace microsoftu s návody k používání bezpečnostních hodnocení
- Technický blog o tom, jak vyhodnotit rizika obsahu a zabezpečení ve generovaných aplikacích AI