Hantera AI – Rekommendationer för att hantera AI
Den här artikeln beskriver organisationsprocessen för att hantera AI-arbetsbelastningar. Det ger rekommendationer för att hantera AI-arbetsbelastningar från utveckling, distribution och åtgärder. Effektiv AI-hantering kräver en strukturerad metod från utveckling via distribution och pågående åtgärder. Företag behöver standardiserade metoder och regelbunden övervakning för att förhindra problem som data- och modellavvikelser, vilket säkerställer att AI förblir korrekt och tillförlitligt över tid.
Hantera AI-åtgärder
Genom att hantera AI-åtgärder säkerställs synlighet och konsekvens under HELA AI-livscykeln. Genom att implementera operativa ramverk som MLOps, skapa sandbox-miljöer och etablera CI/CD-pipelines kan du övervaka utveckling, testning och distribution.
Anta ett driftsramverk för AI. Implementera MLOps-ramverk (Maskininlärningsåtgärder) för traditionella arbetsflöden för maskininlärning och GenAIOps för generativa AI-arbetsbelastningar. Dessa operativa ramverk organiserar slutpunkt till slutpunkt-cykel för AI-utveckling.
Standardisera AI-utvecklingsverktyg. Definiera och standardisera användningen av SDK:er och API:er för konsekvens mellan utvecklingsteam. Verktyg som Azure SDK för AI-arbetsbelastningar tillhandahåller bibliotek och API:er som är optimerade för att skala AI-modeller och integrera dem i program. För generativ AI ska du standardisera din AI-plattform och orkestrerare, till exempel semantisk kernel, LangChain och Prompt Flow.
Använd en sandbox-miljö för AI-experimentering. Använd en sandbox-miljö för AI-modellexperimentering. Du vill ha konsekvens i utvecklings-, test- och prod-miljöer. Sandbox-miljön bör därför skilja sig från utvecklings-, test- och produktionsmiljöer i AI-utvecklingslivscykeln. Om du ändrar distributions- och styrningsmodeller mellan utvecklings-, test- och prod-miljöer kan det dölja och införa icke-bakåtkompatibla ändringar.
Upprätta kontinuerlig integrering och pipelines för kontinuerlig leverans för distribution. Se till att dina datapipelines täcker kodkvalitetskontroller, inklusive linting och statisk analys. Datapipelines bör också omfatta enhets- och integreringstester samt experimenterings- och utvärderingsflöden. Lägg slutligen till steg för produktionsdistribution, till exempel att främja versioner till test- och produktionsmiljöer efter manuella godkännanden. Upprätthålla separation mellan modeller, promptflöden och klientanvändargränssnittet för att säkerställa att uppdateringar av en komponent inte påverkar andra. Varje flöde bör ha en egen livscykel för oberoende befordran.
Hantera AI-distribution
AI-distributionshantering handlar om att definiera vem som kan distribuera AI-resurser och vem som styr dessa slutpunkter. Ett strukturerat tillvägagångssätt, som leds av ett AI-centrum för excellens, hjälper företag att avgöra om arbetsbelastningsteam eller ett centralt team ska hantera resurser, vilket balanserar utvecklingshastigheten med styrningskrav. AI CoE bör leda arbetet med att fastställa den bästa metoden.
Använd arbetsbelastningsteamhantering av AI-resurser för snabbare utveckling. När arbetsbelastningsteam hanterar AI-resurser har de självbestämmande behörighet att distribuera och hantera AI-resurser inom ramen för dina styrningsprinciper. Använd Azure Policy för att tillämpa styrning konsekvent i alla arbetsbelastningsmiljöer. Skapa och kommunicera AI-principer som arbetsbelastningsteamen måste följa för att åtgärda eventuella styrningsluckor. Skapa till exempel generativa AI-principer för att framtvinga inställningar för innehållsfilter och förhindra användning av otillåtna modeller. Gör dessa principer tydligt kända för arbetsbelastningsteam och granska regelbundet.
Använd en delad hantering av AI-resurser, ökad AI-styrning. I en delad AI-hanteringsmetod hanterar ett centralt team AI-resurser för alla AI-arbetsbelastningar. Det här teamet distribuerar ai-kärnresurser och konfigurerar säkerhet och styrning som alla arbetsbelastningsteam använder. Använd den här metoden om du vill att ett enda team ska styra AI-distributioner och styrning i dina arbetsbelastningar.
Hantera AI-slutpunktsdelning
Att dela AI-slutpunkter mellan arbetsbelastningar kan effektivisera hanteringen, men det kräver noggrant övervägande av styrnings- och modellkrav. Företag bör bara dela slutpunkter inom en enda arbetsbelastning med konsekventa behov, eftersom delad användning mellan olika behov kan komplicera styrningen och öka kostnaderna.
Undvik att dela AI-slutpunkter när styrnings- och modellbehoven varierar. Arbetsbelastningar som kräver olika inställningar för innehållsfilter, till exempel styrning av indata och utdata, bör inte dela en slutpunkt. Dela inte heller en enda AI-slutpunkt om en annan AI-modell skulle ge ett mer kostnadseffektivt sätt att uppfylla arbetsbelastningskraven.
Dela AI-slutpunkter endast inom en enda arbetsbelastning. Att dela en AI-slutpunkt fungerar bäst när ett arbetsbelastningsteam har flera program som en del av samma arbetsbelastning. AI-slutpunktsdelning ger minst hanteringskostnader och förenklar distributionen. Dessa program måste dela samma styrningsbehov och AI-modellbehov. Delningsslutpunkter kan leda till att du når hastighetsgränser och kvotbegränsningar. De flesta Azure-tjänster har gränser per prenumeration. I en prenumeration har varje region kvotgränser.
Hantera AI-modeller
AI-modellhantering omfattar att ange styrningsstrukturer, kontinuerlig övervakning och omträning för att upprätthålla prestanda över tid. Den här processen hjälper företag att anpassa modeller efter etiska standarder, spåra modellprestanda och se till att AI-system förblir effektiva och anpassade till affärsmål.
Upprätta en styrningsstruktur för AI-tillsyn. Skapa ett AI Center of Excellence (AI CoE) eller utse en AI-lead. De bör säkerställa att ansvarsfulla AI-standarder följs. De bör fatta beslut om huruvida systemen behöver justeras baserat på dessa rapporter. Använd instrumentpanelen Ansvarsfull AI för att generera rapporter kring modellutdata.
Definiera en AI-måttbaslinje. Upprätta en måttbaslinje för att säkerställa att AI-modeller överensstämmer med affärsmål och etiska standarder. Använd KPI:er som är relaterade till ansvarsfulla AI-principer som rättvisa, transparens och noggrannhet. Mappa dessa KPI:er till AI-arbetsbelastningar. I en chattrobot för kundtjänst kan du till exempel mäta rättvisa genom att utvärdera hur bra modellen presterar i olika demografiska grupper. Om du vill göra dessa mätningar börjar du med de verktyg som används på instrumentpanelen ansvarsfull AI.
Implementera kontinuerlig övervakning. AI-arbetsbelastningar kan ändras över tid på grund av nya data, modelluppdateringar eller förändringar i användarbeteendet. Övervaka AI-modeller, AI-resurser, AI-data för att säkerställa att dessa arbetsbelastningar förblir anpassade till KPI:er. Utföra granskningar för att utvärdera AI-system mot de definierade ansvarsfulla AI-principerna och måtten.
Identifiera de bakomliggande orsakerna till prestandaproblem. Hitta källan till problemet när en minskning av prestanda eller noggrannhet identifieras genom övervakning av AI:n. Se till att du har insyn i varje steg i interaktionen för att isolera problemet och implementera korrigerande åtgärder snabbare. Om en kundtjänstchattrobot till exempel genererar felaktiga svar bör övervakning hjälpa dig att avgöra om felet finns i snabbbearbetningen eller modellens förståelse av kontexten. Använd inbyggda verktyg som Azure Monitor och Application Insights för att proaktivt identifiera flaskhalsar och avvikelser i prestanda.
Spåra modellavdragning. Spåra tillbakadragning för förtränad modeller för att förhindra prestandaproblem när leverantörssupporten upphör. Till exempel kan en generativ AI-modell vara inaktuell, så du måste uppdatera den för att underhålla funktioner. Studio visar modellens slutdatum för alla distributioner.
Träna om AI-modeller efter behov. Ta hänsyn till modeller som försämras över tid på grund av ändringar i data. Schemalägg regelbunden omträning baserat på modellprestanda eller affärsbehov för att säkerställa att AI-systemet förblir relevant. Omträning kan vara dyrt, så utvärdera den initiala träningskostnaden och använd den kostnaden för att utvärdera hur ofta du ska träna om AI-modeller. Underhåll versionskontroll för modeller och se till att det finns en återställningsmekanism för underpresterande versioner.
Upprätta modellbefordransprocess. Använd kvalitetsgrindar för att höja upp tränade, finjusterade och omtränade modeller till högre miljöer baserat på prestandakriterier. Prestandakriterierna är unika för varje program.
Hantera AI-kostnader
För att hantera AI-kostnader krävs en tydlig förståelse för utgifter som rör resurser som beräkning, lagring och tokenbearbetning. Du bör implementera metodtips för kostnadshantering, övervaka användning och konfigurera automatiserade aviseringar för att undvika oväntade utgifter och optimera resurseffektiviteten.
Följ metodtipsen för kostnadshantering för varje tjänst. Varje Azure-tjänst har specifika funktioner och metodtips som maximerar kostnadsoptimeringen. Bekanta dig med följande vägledning för att planera och hantera kostnader i Azure AI Studio, Azure OpenAI Service och Azure Machine Learning.
Övervaka och maximera faktureringseffektiviteten. Förstå kostnadsbrytpunkter för att undvika onödiga avgifter. Exempel är att fullt ut använda tröskelvärden med fast pris för bildgenerering eller finjustering varje timme. Spåra dina användningsmönster, inklusive token per minut (TPM) och begäranden per minut (RPM), och justera modeller och arkitektur därefter. Överväg en åtagandebaserad faktureringsmodell för konsekventa användningsmönster.
Konfigurera automatiska kostnadsaviseringar. Använd budgetaviseringar meddelar dig om oväntade avgifter och upprättar budgeteringsstrategier för att kontrollera och förutsäga dina AI-utgifter.
Information om generativa AI-program med Azure OpenAI finns i dessa rekommendationer för kostnadsoptimering.
Hantera AI-data
Effektiv AI-datahantering fokuserar på att upprätthålla datanoggrannhet, integritet och känslighet under hela AI-livscykeln. När du kurerar datauppsättningar av hög kvalitet och skyddar datapipelines kan din organisation se till att data förblir tillförlitliga och kompatibla med ändrade regelkrav.
Upprätthålla datanoggrannhet och kurera gyllene datamängder. Utveckla en auktoritativ uppsättning data som används för regelbunden testning och validering för båda AI-typerna. Kurera den här datamängden kontinuerligt för att säkerställa att den återspeglar aktuell och korrekt information.
Se till att datapipelineintegriteten är korrekt. Utveckla och underhålla anpassade datapipelines för att säkerställa dataintegritet från datainsamling till förbearbetning och lagring. Varje steg i pipelinen måste vara säkert för att upprätthålla prestanda och tillförlitlighet i båda typerna av AI-program.
Hantera datakänslighetsändringar. Förstå att känslighetsklassificeringen av data kan ändras över tid. Du kanske vill omklassificera data med låg känslighet som mycket känsliga på grund av affärs- eller regeländringar. Utveckla processer för att ta bort eller ersätta känsliga data i underordnade system. Microsoft Defender för molnet och Microsoft Purview kan hjälpa dig att märka och hantera känsliga data. Den här processen börjar med en bra datakatalog före AI-inmatning. När ändringar sker identifierar du alla modeller eller system som använder känsliga data. Om möjligt kan du träna om AI-modeller med hjälp av datauppsättningar som exkluderar omklassificerade känsliga data.
Hantera affärskontinuitet för AI
Affärskontinuitet och haveriberedskap för AI innebär att skapa distributioner i flera regioner och regelbundet testa återställningsplaner. Dessa strategier hjälper till att säkerställa att AI-system förblir i drift under avbrott och minimerar risken för långvariga avbrott eller dataförluster.
Använda distributioner i flera regioner för AI. Implementera distributioner i flera regioner för att säkerställa hög tillgänglighet och återhämtning för både generativa och icke-generativa AI-system. Dessa strategier minimerar stilleståndstiden och ser till att kritiska AI-program förblir i drift under regionala avbrott eller infrastrukturfel. Se till att implementera den redundans som krävs för tränade och finjusterade modeller för att undvika behovet av omträning under ett avbrott.
Testa och validera planer för haveriberedskap regelbundet. Utför regelbundna tester av haveriberedskapsplaner för att verifiera att du kan återställa generativa och icke-generativa AI-system effektivt. Inkludera testning av processer för dataåterställning och valideringsprocedurer för att säkerställa att alla AI-komponenter fungerar korrekt efter återställningen. Validering säkerställer regelbundet att organisationen är förberedd för verkliga incidenter och minimerar risken för fel under återställningen.
Hantera och spåra ändringar i AI-system. Se till att alla ändringar i modeller, data och konfigurationer hanteras via versionskontrollsystem som Git. Det är viktigt för att spåra ändringar och säkerställa möjligheten att återställa tidigare versioner under återställningen. För generativ och icke-generativ AI bör automatisk granskning av modell- och systemändringar vara på plats så att du snabbt kan identifiera och återställa oplanerade ändringar.