Vad är en dataprodukt?
Varje program skapar och lagrar data tillfälligt eller permanent. Många program skapar och sparar även data i drifthanteringssyfte, till exempel felloggning och hälsoövervakning. För att använda och bearbeta de data som dessa program producerar använder centraliserade datateam ETL-processer (extract, transform och load). Programåtgärdsteam har ofta andra databehandlingsflöden för data som programhälsodata och KPI-statusövervakningsdata.
För dataintegrering är en traditionell vattenfallsmetod där team följer en specifik fasordning inte idealisk. Det kan leda till kunskapsluckor, ägarskapsproblem och kommunikationskonflikter som påverkar dina datas kvalitet, aktualitet och värde för användarna. Programteam ansvarar för programmets prestanda och framgång. När de använder en vattenfallsmetod gör de ändringar i underordnade processer som andra team äger. Ibland kan dessa ändringar påverka andra områden. En mindre uppströmsändring kan till exempel drastiskt ändra en KPI:s trend. Dessa konflikter kan påverka din förmåga att fatta kritiska beslut.
Data som en produkt
För att förhindra dessa problem använder datanätmetoden begreppet data som en produkt. Programägare och programteam behandlar data som en fullständigt innesluten produkt som de ansvarar för, snarare än en biprodukt av ett annat teams process. Både program- och analysuppgifter för dataservering ligger inom domänansvarsområden.
Dataprodukter skapas specifikt för analysförbrukning. De har definierat och kommit överens om former, förbrukningsgränssnitt och underhålls- och uppdateringscykler, som alla är dokumenterade.
Dataprodukter bearbetas domändatatillgångar eller datauppsättningar som du kan dela med underordnade processer via gränssnitt i ett servicenivåmål. Om inget annat krävs bör du bearbeta, forma, rensa, aggregera och normalisera dina rådata för att uppfylla överenskomna kvalitetsstandarder innan du gör dem tillgängliga för användning.
I följande avsnitt beskrivs vanliga egenskaper hos bra dataprodukter.
Egenskaper för dataprodukt
Se till att dina dataprodukter är:
Upptäckbar, begriplig och tillförlitlig. För att ge identifiering och klarhet, dela och uppdatera information om varje dataprodukt, dess data, dess innebörd, formformatet för dess data och dess uppdateringscykel. Kommunicera dataändringar eller formändringar till nedströmsanvändare i tid. För att säkerställa tillförlitlighet ger gränssnitt tidsbegränsad bakåtkompatibilitet för dataproduktformer.
Adresserbar, inbyggt tillgänglig och säker. Skapa definierade processer för att hitta och få åtkomst till varje dataprodukt för att tillhandahålla adresserbarhet. Implementera säkerhetsåtgärder för olika åtkomstkrav. Flytta datadomänägarmentaliteten från gatekeeping-data till att hantera data med väldefinierade säkerhetsåtgärder. Väldokumenterade åtkomstgränssnitt kan variera mellan olika tekniker. Vanliga gränssnitt för inbyggda dataprodukter är API:er, databasanvändare, tabeller eller vyer och filer med nödvändiga åtkomsträttigheter.
Samverkande, sanningsenliga och värdefulla. För att tillhandahålla samverkan kontrollerar du att dina data följer definierade vanliga standarder, till exempel värden som har samma namn och datatyp. Du kan till exempel namnge en kolumn som innehåller kundidentifieringsdata CustomerID i varje dataprodukt, och dess data kan alltid vara ett heltal. Dataprodukter ger kunderna ett värde och du kan använda dem som överordnade källor för nya dataprodukter i samma domän eller olika domäner. Men du kan inte bara bära och kopiera samma dataprodukt på flera platser. Varje dataprodukt som kommer från en tidigare dataprodukt bör ge nytt värde och information till nedströmskonsumenter. Dataprodukter måste också tillhandahålla sanningsenliga och korrekta data.
Använd väldesignade, väl underhållna dataprodukter och deras gränssnitt för att undvika duplicering av data och skapa en intern enda sanningskälla.
Designrekommendationer för dataprodukter
För att uppfylla kraven på dataproduktbetjäning måste dina domänteam skaffa sig en ny uppsättning kunskaper och använda nya verktyg och plattformar.
Om du vill skapa dataprogram och producera eller hantera dataprodukter kan du utrusta dina domänprogramteam fullt ut. Dina team kan använda en välbekant teknikstack för att skapa dataprodukter. De kanske också föredrar att ha en egen Spark-instans eller pipelinemotor. En stor domän som hanterar många dataprodukter kan till exempel bearbeta och hantera dataprodukter från sin egen Azure Synapse Analytics-instans. Mindre organisationer och mindre domäner i stora organisationer kan utveckla och köra sina dataprogram på en delad plattform, till exempel en centralt belägen Azure Data Factory, Azure Synapse Analytics eller Azure Databricks-instans.
Se till att dina dataprodukter har de vanliga egenskaper som beskrivs i den här artikeln, att ursprungslagringsplatsen återspeglar ditt dataprograms ursprung och att du styr implementeringen och åtkomsten.
Följande diagram visar ett exempel på logisk layout för dataprogram i en domän och landningszon.
Vägledning för dataprodukter och dataprogram för Azure
Du kan placera metoder för din dataprogrammiljö i Azures datalandningszoner om dina domänprogramteam använder en delad plattform och en delad uppsättning tjänster.
Information om mallar för dataprogrammönster för Azure-datalandningszoner finns i Exempeldataprogram.