Metodtips för data- och AI-styrning
Den här artikeln beskriver metodtips för data- och AI-styrning, ordnade efter arkitekturprinciper som anges i följande avsnitt.
1. Förena data- och AI-hantering
Upprätta en data- och AI-styrningsprocess
Data- och AI-styrning är hanteringen av tillgänglighet, användbarhet, integritet och säkerhet för en organisations data och AI-tillgångar. Genom att stärka data- och AI-styrningen kan organisationer säkerställa kvaliteten på de tillgångar som är viktiga för korrekt analys och beslutsfattande, hjälpa till att identifiera nya möjligheter, förbättra kundnöjdheten och i slutändan öka intäkterna. Det hjälper organisationer att följa sekretessregler för data och AI och förbättra säkerhetsåtgärder, vilket minskar risken för dataintrång och påföljder. Effektiv datastyrning eliminerar också redundans och effektiviserar datahanteringen, vilket resulterar i kostnadsbesparingar och ökad driftseffektivitet.
En organisation kanske vill välja vilken styrningsmodell som passar dem bäst:
- I den centraliserade styrningsmodellen är dina styrningsadministratörer ägare av metaarkivet och kan ta över ägarskapet för alla objekt och bevilja och återkalla behörigheter.
- I en distribuerad styrningsmodell är katalogen eller en uppsättning kataloger datadomänen. Ägaren av katalogen kan skapa och äga alla tillgångar och hantera styrning inom domänen. Ägarna till en viss domän kan fungera oberoende av ägarna till andra domäner.
Data- och AI-styrningslösningen Unity Catalog är integrerad i Databricks Data Intelligence Platform. Den stöder både styrningsmodeller och hjälper till att sömlöst hantera strukturerade och ostrukturerade data, ML-modeller, notebook-filer, instrumentpaneler och filer på alla moln eller plattformar. Metodtips för Unity Catalog hjälper dig att implementera data- och AI-styrning.
Hantera metadata för alla data och AI-tillgångar på ett och samma ställe
Fördelarna med att hantera metadata för alla tillgångar på ett ställe liknar fördelarna med att upprätthålla en enda sanningskälla för alla dina data. Dessa omfattar minskad dataredundans, ökad dataintegritet och eliminering av missförstånd på grund av olika definitioner eller taxonomier. Det är också enklare att implementera globala principer, standarder och regler med en enda källa.
Vi rekommenderar att du kör lakehouse i ett enda konto med en Unity-katalog. Unity-katalogen kan hantera data och volymer (godtyckliga filer) samt AI-tillgångar som funktioner och AI-modeller. Den översta containern med objekt i Unity-katalogen är ett metaarkiv. Den lagrar datatillgångar (till exempel tabeller och vyer) och de behörigheter som styr åtkomsten till dem. Använd ett enda metaarkiv per molnregion och få inte åtkomst till metaarkiv mellan regioner för att undvika problem med svarstiden.
Metaarkivet tillhandahåller ett namnområde på tre nivåer för att strukturera data, volymer och AI-tillgångar:
Databricks rekommenderar att du använder kataloger för att tillhandahålla segregation i organisationens informationsarkitektur. Det innebär ofta att kataloger kan motsvara programutvecklingsmiljöns omfång, team eller affärsenhet.
Spåra data och AI-ursprung för att öka synligheten för data
Data härkomst är ett kraftfullt verktyg som hjälper dataledare att få bättre insyn och förståelse för data i sina organisationer. Data härkomst beskriver transformering och förfining av data från källa till insikt. Den innehåller insamling av alla relevanta metadata och händelser som är associerade med data under hela livscykeln, inklusive datamängdens källa, vilka andra datauppsättningar som användes för att skapa den, vem som skapade den och när, vilka transformeringar som utfördes, vilka andra datauppsättningar som använder den och många andra händelser och attribut.
När du tränar en modell på en tabell i Unity Catalog kan du dessutom spåra modellens ursprung till de överordnade datauppsättningar som den har tränats och utvärderats på.
Ursprung kan användas för många datarelaterade användningsfall:
- Efterlevnads- och granskningsberedskap: Data härkomst hjälper organisationer att spåra källan till tabeller och fält. Detta är viktigt för att uppfylla kraven i många efterlevnadsregler, till exempel GDPR (General Data Protection Regulation), California Consumer Privacy Act (CCPA), Health Insurance Portability and Accountability Act (HIPAA), Basel Committee on Banking Supervision (BCBS) 239 och Sarbanes-Oxley Act (SOX).
- Påverkansanalys/ändringshantering: Data genomgår flera omvandlingar från källan till den slutliga tabellen som är redo för verksamheten. Att förstå den potentiella effekten av dataändringar på nedströmsanvändare blir viktigt ur ett riskhanteringsperspektiv. Den här effekten kan enkelt fastställas med hjälp av den data härkomst som samlas in av Unity-katalogen.
- Datakvalitetssäkring: Att förstå var en datamängd kom ifrån och vilka omvandlingar som har tillämpats ger mycket bättre kontext för dataforskare och analytiker, vilket gör det möjligt för dem att få bättre och mer exakta insikter.
- Felsökning och diagnostik: I händelse av ett oväntat resultat hjälper data härstamning datateam att utföra rotorsaksanalys genom att spåra felet tillbaka till källan. Detta minskar felsökningstiden avsevärt.
Unity Catalog samlar in körningsdata härstamning mellan frågor som körs på Azure Databricks och även modellursprung. Ursprung stöds för alla språk och samlas in ned till kolumnnivå. Härkomstdata omfattar notebook-filer, jobb och instrumentpaneler som är relaterade till frågan. Ursprung kan visualiseras nästan i realtid i Katalogutforskaren och nås med hjälp av Databricks REST API för data härkomst.
Lägga till konsekventa beskrivningar i dina metadata
Beskrivningar ger viktig kontext för data. De hjälper användarna att förstå syftet med och innehållet i datatabeller och kolumner. Med den här tydligheten kan de lättare identifiera, identifiera och filtrera de data de behöver, vilket är viktigt för effektiv dataanalys och beslutsfattande. Beskrivningar kan innehålla information om datakänslighet och efterlevnad. Detta hjälper organisationer att uppfylla juridiska och regelmässiga krav för datasekretess och säkerhet. Beskrivningar bör också innehålla information om källan, noggrannheten och relevansen av data. Detta bidrar till att säkerställa dataintegritet och främjar bättre samarbete mellan team.
Två huvudfunktioner i Unity Catalog stöder beskrivning av tabeller och kolumner. Unity-katalogen gör det möjligt att
lägg till kommentarer i tabeller och kolumner i form av kommentarer.
Du kan också lägga till en AI-genererad kommentar för en tabell eller tabellkolumn som hanteras av Unity Catalog för att påskynda processen. AI-modeller är dock inte alltid korrekta och kommentarer måste granskas innan de sparas. Databricks rekommenderar starkt mänsklig granskning av AI-genererade kommentarer för att söka efter felaktigheter.
lägg till taggar till alla skyddsbara i Unity Catalog. Taggar är attribut med nycklar och valfria värden som du kan använda för olika skyddsbara objekt i Unity Catalog. Taggning är användbart för att organisera och kategorisera olika skyddsbara objekt i ett metaarkiv. Med hjälp av taggar blir det också enklare att söka efter och identifiera dina datatillgångar.
Tillåt enkel dataidentifiering för datakonsumenter
Enkel dataidentifiering gör det möjligt för dataforskare, dataanalytiker och datatekniker att snabbt identifiera och referera till relevanta data och påskynda tiden till värde.
Databricks Catalog Explorer tillhandahåller ett användargränssnitt för att utforska och hantera data, scheman (databaser), tabeller och behörigheter, dataägare, externa platser och autentiseringsuppgifter. Dessutom kan du använda fliken Insikter i Katalogutforskaren för att visa de vanligaste senaste frågorna och användarna av en tabell som är registrerad i Unity Catalog.
Styra AI-tillgångar tillsammans med data
Relationen mellan datastyrning och artificiell intelligens (AI) har blivit avgörande för framgång. Hur organisationer hanterar, skyddar och använder data påverkar direkt resultatet och övervägandena för AI-implementeringar: du kan inte ha AI utan kvalitetsdata och du kan inte ha kvalitetsdata utan datastyrning.
Att styra data och AI tillsammans förbättrar AI-prestandan genom att säkerställa sömlös åtkomst till aktuella data av hög kvalitet, vilket leder till bättre noggrannhet och bättre beslutsfattande. Genom att dela upp silor ökar effektiviteten genom bättre samarbete och effektivisering av arbetsflöden, vilket resulterar i ökad produktivitet och minskade kostnader.
Förbättrad datasäkerhet är en annan fördel, eftersom en enhetlig styrningsmetod etablerar konsekventa metoder för datahantering, minskar sårbarheter och förbättrar en organisations förmåga att skydda känslig information. Efterlevnad av regler för datasekretess är enklare att underhålla när data- och AI-styrning integreras, eftersom datahanterings- och AI-processer är i linje med regelkraven.
På det hela taget främjar en enhetlig styrningsmetod förtroende bland intressenter och säkerställer transparens i AI-beslutsprocesser genom att upprätta tydliga principer och procedurer för både data och AI.
I Databricks Data Intelligence Platform är Unity Catalog den centrala komponenten för att styra både data och AI-tillgångar:
-
I Unity Catalog-aktiverade arbetsytor kan dataexperter skapa funktionstabeller i Unity Catalog. Dessa funktionstabeller är Delta-tabeller eller Delta Live Tables som hanteras av Unity Catalog.
-
Modeller i Unity Catalog utökar fördelarna med Unity Catalog till ML-modeller, inklusive centraliserad åtkomstkontroll, granskning, ursprung och modellidentifiering mellan arbetsytor. Viktiga funktioner i modeller i Unity Catalog är styrning för modeller, kronologisk modell härkomst, modellversioner och modelldistribution via alias.
2. Förena data och AI-säkerhet
Centralisera åtkomstkontroll för alla data och AI-tillgångar
Det är viktigt att centralisera åtkomstkontroll för alla datatillgångar eftersom det förenklar säkerheten och styrningen av dina data och AI-tillgångar genom att tillhandahålla en central plats för att administrera och granska åtkomsten till dessa tillgångar. Den här metoden hjälper till att hantera data- och AI-objektåtkomst effektivare, vilket säkerställer att driftskraven kring ansvarsfördelning tillämpas, vilket är avgörande för regelefterlevnad och riskundandragande.
Databricks Data Intelligence Platform tillhandahåller metoder för dataåtkomstkontroll som beskriver vilka grupper eller individer som kan komma åt vilka data. Det här är principinstruktioner som kan vara mycket detaljerade och specifika, ned till definitionen av varje post som varje enskild person har åtkomst till. Eller så kan de vara mycket uttrycksfulla och breda, till exempel att alla finansiella användare kan se alla finansiella data.
Unity-katalogen centraliserar åtkomstkontroller för alla skyddsbara objekt som stöds, till exempel tabeller, filer, modeller och många fler. Varje skyddsbart objekt i Unity Catalog har en ägare. Ägaren till ett objekt har alla behörigheter för objektet, samt möjligheten att bevilja behörigheter för det skyddsbara objektet till andra huvudnamn. Med Unity-katalogen kan du hantera behörigheter och konfigurera åtkomstkontroll med hjälp av SQL DDL-instruktioner.
Unity-katalogen använder radfilter och kolumnmasker för detaljerad åtkomstkontroll. Med radfilter kan du tillämpa ett filter på en tabell så att efterföljande frågor endast returnerar rader som filterpredikatet utvärderas till sant för. Med kolumnmasker kan du använda en maskeringsfunktion i en tabellkolumn. Maskeringsfunktionen utvärderas vid frågekörning och ersätter varje referens till målkolumnen med resultatet av maskeringsfunktionen.
Mer information finns i Säkerhet, efterlevnad och sekretess – Hantera identitet och åtkomst med minsta möjliga behörighet.
Konfigurera granskningsloggning
Granskningsloggning är viktigt eftersom den innehåller en detaljerad redogörelse för systemaktiviteter (användaråtgärder, ändringar av inställningar och så vidare) som kan påverka systemets integritet. Standardsystemloggar är utformade för att hjälpa utvecklare att felsöka problem, men granskningsloggar ger en historisk aktivitetspost för efterlevnad och andra affärsprinciper. Genom att underhålla robusta granskningsloggar kan du identifiera och säkerställa beredskap inför hot, överträdelser, bedrägerier och andra systemproblem.
Databricks ger åtkomst till granskningsloggar för aktiviteter som utförs av Databricks-användare, så att din organisation kan övervaka detaljerade Databricks-användningsmönster. Det finns två typer av loggar, granskningsloggar på arbetsytenivå med händelser på arbetsytenivå och granskningsloggar på kontonivå med händelser på kontonivå.
Du kan också aktivera utförliga granskningsloggar är ytterligare granskningsloggar som registreras när en fråga eller ett kommando körs på din arbetsyta.
Granska dataplattformshändelser
Granskningsloggning är viktigt eftersom den innehåller en detaljerad redogörelse för systemaktiviteter. Data Intelligence Platform har granskningsloggar för metadataåtkomst (därav dataåtkomst) och för datadelning:
- Unity Catalog registrerar en granskningslogg med åtgärder som utförs mot metaarkivet. Detta gör det möjligt för administratörer att komma åt detaljerad information om vem som har åtkomst till en viss datauppsättning och vilka åtgärder de utförde.
- För säker delning med deltadelning tillhandahåller Azure Databricks granskningsloggar för att övervaka deltadelningshändelser, inklusive:
- När någon skapar, ändrar, uppdaterar eller tar bort en resurs eller en mottagare.
- När en mottagare kommer åt en aktiveringslänk och laddar ned autentiseringsuppgifterna.
- När en mottagare kommer åt resurser eller data i delade tabeller.
- När en mottagares autentiseringsuppgifter roteras eller upphör att gälla.
3. Upprätta standarder för datakvalitet
Databricks Data Intelligence Platform tillhandahåller robust datakvalitetshantering med inbyggda kvalitetskontroller, testning, övervakning och tillämpning för att säkerställa att korrekta och användbara data är tillgängliga för bi-, analys- och maskininlärningsarbetsbelastningar under senare tid.
Implementeringsinformation finns i Tillförlitlighet – Hantera datakvalitet.
Definiera tydliga datakvalitetsstandarder
Det är viktigt att definiera tydliga och användbara datakvalitetsstandarder, eftersom det bidrar till att säkerställa att data som används för analys, rapportering och beslutsfattande är tillförlitliga och tillförlitliga. Genom att dokumentera dessa standarder ser du till att de upprätthålls. Standarder för datakvalitet bör baseras på verksamhetens specifika behov och bör hantera dimensioner av datakvalitet såsom noggrannhet, fullständighet, konsekvens, aktualitet och tillförlitlighet:
- Noggrannhet: Se till att data korrekt återspeglar verkliga värden.
- Fullständighet: Alla nödvändiga data ska samlas in och inga kritiska data ska saknas.
- Konsekvens: Data i alla system ska vara konsekventa och inte motsäga andra data.
- Aktualitet: Data bör uppdateras och vara tillgängliga i tid.
- Tillförlitlighet: Data ska hämtas och bearbetas på ett sätt som säkerställer dess pålitlighet.
Använda datakvalitetsverktyg för profilering, rensning, validering och övervakning av data
Använd verktyg för datakvalitet för profilering, rensning, validering och övervakning av data. Dessa verktyg hjälper till att automatisera processerna för att identifiera och korrigera problem med datakvalitet, vilket är viktigt för att skala datakvalitetsinitiativ över stora datamängder som är typiska i datasjöar
För team som använder DLT kan du använda förväntningar för att definiera datakvalitetsbegränsningar för innehållet i en datauppsättning. Med förväntningar kan du garantera att data som kommer in i tabeller uppfyller datakvalitetskraven och ger insikter om datakvaliteten för varje pipelineuppdatering.
Implementera och framtvinga standardiserade dataformat och definitioner
Standardiserade dataformat och definitioner bidrar till att uppnå en konsekvent representation av data i alla system för att underlätta dataintegrering och analys, minska kostnaderna och förbättra beslutsfattandet genom att förbättra kommunikationen och samarbetet mellan team och avdelningar. Det hjälper också till att tillhandahålla en struktur för att skapa och upprätthålla datakvalitet.
Utveckla och framtvinga en standarddataordlista som innehåller definitioner, format och acceptabla värden för alla dataelement som används i organisationen.
Använd konsekventa namngivningskonventioner, datumformat och måttenheter i alla databaser och program för att förhindra avvikelser och förvirring.