Användningsscenarier för Power BI: Avancerad dataförberedelse
Kommentar
Den här artikeln är en del av planeringsserien för Power BI-implementering. Den här serien fokuserar främst på Power BI-upplevelsen i Microsoft Fabric. En introduktion till serien finns i Implementeringsplanering för Power BI.
Dataförberedelser (kallas ibland ETL, vilket är en förkortning för aktiviteter för extrahering, transformering och inläsning) innebär ofta en stor ansträngning. Tid, skicklighet och arbete med att samla in, rensa, kombinera och berika data beror på källdatas kvalitet och struktur.
Genom att investera tid och arbete i centraliserad dataförberedelse kan du:
- Förbättra återanvändbarheten och få maximalt värde från dataförberedelsearbetet.
- Förbättra möjligheten att tillhandahålla konsekventa data till flera team.
- Minska den ansträngningsnivå som krävs av andra innehållsskapare.
- Uppnå skalning och prestanda.
Användningsscenariot för avancerad dataförberedelse expanderar scenariot för dataförberedelse med självbetjäning . Avancerad dataförberedelse handlar om att öka återanvändningen av dataflöden av flera användare i olika team och för olika användningsfall.
Separata arbetsytor, ordnade efter dataflödessyfte, är användbara när dataflödesutdata tillhandahålls till flera skapare av semantiska modeller, särskilt när de finns i olika team i organisationen. Separata arbetsytor är också användbara för att hantera säkerhetsroller när de personer som skapar och hanterar dataflöden skiljer sig från de personer som använder dem.
Kommentar
Scenariot för avancerad dataförberedelse är det andra av scenarierna för dataförberedelse. Det här scenariot bygger på vad som kan göras med centraliserade dataflöden enligt beskrivningen i scenariot för förberedelse av självbetjäningsdata .
Scenariot för avancerad dataförberedelse är ett av BI-scenarierna med självbetjäning. En centraliserad gruppmedlem kan dock använda teknikerna på ett liknande sätt som det som beskrivs i det hanterade BI-scenariot med självbetjäning. En fullständig lista över självbetjäningsscenarier finns i artikeln Om Power BI-användningsscenarier .
I korthet beskrivs inte vissa aspekter som beskrivs i avsnittet om innehållssamarbete och leveransscenarier i den här artikeln. För fullständig täckning, läs dessa artiklar först.
Scenariodiagram
Dricks
Vi rekommenderar att du granskar användningsscenariot för dataförberedelse med självbetjäning om du inte är bekant med det. Det avancerade scenariot för dataförberedelse med självbetjäning bygger på det scenariot.
Fokus för det här avancerade dataförberedelsescenariot ligger på:
- Användning av separata dataflöden baserat på syfte: mellanlagring, transformering eller slutlig. Vi rekommenderar att du använder komposterbara byggstenar för att få större återanvändning, i olika kombinationer, för att stödja specifika användarkrav. Komposterbara byggstenar beskrivs senare i den här artikeln.
- Användning av separata arbetsytor som stöder dataflödesskapare eller dataflödeskonsumenter. Datamodellerare, som använder dataflöden, kan finnas i olika team och/eller ha olika användningsfall.
- Användning av länkade tabeller (kallas även länkade entiteter), beräknade tabeller (även kallade beräknade entiteter) och den förbättrade beräkningsmotorn.
Kommentar
Ibland används termerna semantisk modell och datamodell på ett utbytbart sätt. I allmänhet kallas det för semantisk modell ur ett Power BI-tjänst perspektiv. Ur ett utvecklingsperspektiv kallas det för en datamodell (eller modell för kort). I den här artikeln har båda termerna samma betydelse. På samma sätt har en semantisk modellskapare och en datamodellerare samma betydelse.
Följande diagram visar en översikt på hög nivå över de vanligaste användaråtgärderna och Power BI-komponenterna som stöder scenariot för avancerad dataförberedelse.
Dricks
Vi rekommenderar att du laddar ned scenariodiagrammet om du vill bädda in det i presentationen, dokumentationen eller blogginlägget eller skriva ut det som en väggaffisch. Eftersom det är en SVG-bild (Scalable Vector Graphics) kan du skala upp eller ned den utan någon kvalitetsförlust.
Scenariodiagrammet visar följande användaråtgärder, verktyg och funktioner:
Artikel | Beskrivning |
---|---|
Skaparen av dataflödet utvecklar en samling tabeller i ett dataflöde. För ett dataflöde som är avsett för återanvändning är det vanligt (men inte obligatoriskt) att skaparen tillhör ett centraliserat team som stöder användare över organisationsgränser (till exempel IT, enterprise BI eller Center of Excellence). | |
Dataflödet ansluter till data från en eller flera datakällor. | |
Vissa datakällor kan kräva en lokal datagateway eller VNet-gateway för datauppdatering, som de som finns i ett privat organisationsnätverk. Dessa gatewayer används både för att redigera dataflödet i Power Query Online och uppdatera dataflödet. | |
Alla berörda arbetsytor har sitt licensläge inställt på Infrastrukturkapacitet, Premium-kapacitet, Premium per användare eller Inbäddad. Dessa licenslägen tillåter användning av länkade tabeller och beräknade tabeller mellan arbetsytor, vilket krävs i det här scenariot. | |
Dataflödesskapare utvecklar dataflöden med hjälp av Power Query Online, som är en webbaserad version av Power Query. | |
Ett mellanlagringsdataflöde skapas på en arbetsyta som är dedikerad till centraliserad hantering av dataflöden. Ett mellanlagringsdataflöde kopierar rådata som de är från källan. Få, om några, transformeringar tillämpas. | |
Ett transformeringsdataflöde (även kallat ett rensat dataflöde) skapas på samma arbetsyta. Den hämtar data med hjälp av länkade tabeller till mellanlagringsdataflödet. Beräknade tabeller innehåller transformeringssteg som förbereder, rensar och omformar data. | |
Dataflödesskapare har åtkomst till att hantera innehåll på arbetsytan som är dedikerade till centraliserad hantering av dataflöden. | |
En eller flera andra arbetsytor finns som är avsedda att ge åtkomst till det slutliga dataflödet, som levererar produktionsklara data till datamodeller. | |
Det slutliga dataflödet skapas på en arbetsyta som är tillgänglig för datamodellerare. Den hämtar data med hjälp av länkade tabeller till transformeringsdataflödet. Beräknade tabeller representerar de förberedda utdata som är synliga för datamodellerare som beviljas rollen arbetsytevisning. | |
Skapare av semantiska modeller (som använder dataflödesutdata) har visningsprogramåtkomst till arbetsytan som innehåller de slutliga dataflödesutdata. Dataflödesskapare har också åtkomst till att hantera och publicera innehåll på arbetsytan (visas inte i scenariodiagrammet). | |
Skapare av semantiska modeller använder det slutliga dataflödet som datakälla när de utvecklar en datamodell i Power BI Desktop. När den är klar publicerar den semantiska modellskaparen Power BI Desktop-filen (.pbix) som innehåller datamodellen till Power BI-tjänst (visas inte i scenariodiagrammet). | |
Infrastrukturadministratörer hanterar inställningar i administratörsportalen. | |
I administratörsportalen kan Power BI-administratörer konfigurera Azure-anslutningar för att lagra dataflödesdata i sitt Azure Data Lake Storage Gen2-konto (ADLS Gen2). Inställningarna omfattar tilldelning av ett lagringskonto på klientnivå och aktivering av lagringsbehörigheter på arbetsytenivå. | |
Som standard lagrar dataflöden data med hjälp av intern lagring som hanteras av Power BI-tjänst. Du kan också lagra datautdata från dataflödet i organisationens ADLS Gen2-konto. | |
Infrastrukturadministratörer övervakar och övervakar aktivitet i Infrastrukturresursportalen. |
Huvudpunkter
Följande är några viktiga punkter att betona om scenariot för avancerad dataförberedelse.
Dataflöden
Ett dataflöde består av en samling tabeller (kallas även entiteter). Varje tabell definieras av en fråga som innehåller de dataförberedelsesteg som krävs för att läsa in tabellen med data. Allt arbete för att skapa ett dataflöde görs i Power Query Online. Du kan skapa ett dataflöde i flera produkter, inklusive Power Apps, Dynamics 365 Customer Insights och Power BI.
Kommentar
Du kan inte skapa dataflöden på en personlig arbetsyta i Power BI-tjänst.
Typer av dataflöden
Användning av komposterbara byggstenar är en designprincip som gör att du kan hantera, distribuera och skydda systemkomponenter och sedan använda dem i olika kombinationer. Det är bästa praxis att skapa modulära, fristående dataflöden som är specifika för ett syfte. De bidrar till att uppnå återanvändning av data och företagsskala. Modulära dataflöden är också enklare att hantera och testa.
Tre typer av dataflöden visas i scenariodiagrammet: mellanlagring av dataflöde, transformeringsdataflöde och slutligt dataflöde.
Mellanlagring av dataflöde
Ett mellanlagringsdataflöde (kallas ibland ett dataextraheringsdataflöde) kopierar rådata som de är från källan. Om rådata extraheras med minimal transformering innebär det att nedströmstransformeringsdataflöden (beskrivs härnäst) kan använda mellanlagringsdataflödet som källa. Den här modulariteten är användbar när:
- Åtkomsten till en datakälla är begränsad till begränsade tidsfönster och/eller till några få användare.
- Temporal konsekvens önskas för att säkerställa att alla underordnade dataflöden (och relaterade semantiska modeller) levererar data som extraherades från datakällan samtidigt.
- Att minska antalet frågor som skickas till datakällan är nödvändigt på grund av begränsningar i källsystemet eller dess förmåga att stödja analysfrågor.
- En kopia av källdata är användbar för avstämningsprocesser och verifiering av datakvalitet.
Transformeringsdataflöde
Ett transformeringsdataflöde (kallas ibland ett rensat dataflöde) hämtar sina data från länkade tabeller som ansluter till mellanlagringsdataflödet. Vi rekommenderar att du separerar transformeringar från dataextraheringsprocessen.
Ett transformeringsdataflöde innehåller alla transformeringssteg som krävs för att förbereda och omstrukturera data. Det finns dock fortfarande fokus på återanvändning på det här lagret för att säkerställa att dataflödet är lämpligt för flera användningsfall och syften.
Slutligt dataflöde
Ett slutligt dataflöde representerar de förberedda utdata. Vissa ytterligare transformeringar kan ske baserat på användningsfall och syfte. För analys är en star-schematabell (dimension eller fakta) den föredragna designen av det slutliga dataflödet.
Beräknade tabeller är synliga för datamodellerare som har tilldelats rollen som visningsroll för arbetsytan. Den här tabelltypen beskrivs i avsnittet med typer av dataflödestabeller nedan.
Kommentar
Datasjöar har ofta zoner som brons, silver och guld. De tre typerna av dataflöden representerar ett liknande designmönster. För att fatta bästa möjliga beslut om dataarkitektur bör du tänka på vem som ska underhålla data, förväntad användning av data och den kompetensnivå som krävs av personer som kommer åt data.
Arbetsytor för dataflöden
Om du skulle skapa alla dataflöden på en enda arbetsyta skulle det avsevärt begränsa återanvändbarhetens omfattning. Om du använder en enda arbetsyta begränsas även de tillgängliga säkerhetsalternativen när du stöder flera typer av användare i team och/eller för olika användningsfall. Vi rekommenderar att du använder flera arbetsytor. De ger bättre flexibilitet när du behöver stöd för självbetjäningsskapare från olika delar av organisationen.
De två typerna av arbetsytor som visas i scenariodiagrammet är:
- Arbetsyta 1: Den lagrar centralt hanterade dataflöden (kallas ibland för en serverdelsarbetsyta). Den innehåller både mellanlagrings- och transformeringsdataflöden eftersom de hanteras av samma personer. Dataflödesskapare kommer ofta från ett centraliserat team, till exempel IT, BI eller Center of Excellence. De bör tilldelas till antingen arbetsytans administratörs-, medlems- eller deltagarroll .
- Arbetsyta 2: Den lagrar och levererar det slutliga dataflödets utdata till datakonsumenter (kallas ibland för en användararbetsyta). Semantiska modellskapare är ofta självbetjäningsanalytiker, energianvändare eller medborgardatatekniker. De bör tilldelas till arbetsytans visningsroll eftersom de bara behöver använda utdata från det slutliga dataflödet. För att stödja semantiska modellskapare från olika delar av organisationen kan du skapa flera arbetsytor som den här, baserat på användningsfall och säkerhetsbehov.
Dricks
Vi rekommenderar att du granskar olika sätt att stödja skapare av semantiska modeller enligt beskrivningen i användningsscenariot för dataförberedelse med självbetjäning . Det är viktigt att förstå att semantiska modellskapare fortfarande kan använda de fullständiga funktionerna i Power Query i Power BI Desktop. De kan välja att lägga till frågesteg för att ytterligare transformera dataflödesdata eller sammanfoga dataflödesutdata med andra källor.
Typer av dataflödestabeller
Tre typer av dataflödestabeller (även kallade entiteter) visas i scenariodiagrammet.
- Standardtabell: Frågar en extern datakälla, till exempel en databas. I scenariodiagrammet visas standardtabeller i mellanlagringsdataflödet.
- Länkad tabell: Refererar till en tabell från ett annat dataflöde. En länkad tabell duplicerar inte data. I stället kan en standardtabell återanvändas flera gånger i flera syften. Länkade tabeller är inte synliga för arbetsytans användare eftersom de ärver behörigheter från det ursprungliga dataflödet. I scenariodiagrammet visas länkade tabeller två gånger:
- I transformeringsdataflödet för åtkomst till data i mellanlagringsdataflödet.
- I det sista dataflödet för åtkomst till data i transformeringsdataflödet.
- Beräknad tabell: Utför ytterligare beräkningar med hjälp av ett annat dataflöde som källa. Med beräknade tabeller kan du anpassa utdata efter behov för enskilda användningsfall. I scenariodiagrammet visas beräknade tabeller två gånger:
- I transformeringsdataflödet för att utföra vanliga transformeringar.
- I det slutliga dataflödet för att leverera utdata till semantiska modellskapare. Eftersom beräknade tabeller bevarar data igen (efter dataflödesuppdateringen) kan datamodellerare komma åt de beräknade tabellerna i det slutliga dataflödet. I det här fallet bör datamodellerare beviljas åtkomst med arbetsytans visningsroll .
Kommentar
Det finns många designtekniker, mönster och metodtips som kan ta dataflöden från självbetjäning till företagsklara. Dessutom kan dataflöden på en arbetsyta som har sitt licensläge inställt på Premium per användare eller Premium-kapacitet dra nytta av avancerade funktioner. Länkade tabeller och beräknade tabeller (kallas även entiteter) är två avancerade funktioner som är viktiga för att öka återanvändningen av dataflöden.
Förbättrad beräkningsmotor
Den förbättrade beräkningsmotorn är en avancerad funktion som är tillgänglig med Power BI Premium.
Viktigt!
Ibland refererar den här artikeln till Power BI Premium eller dess kapacitetsprenumerationer (P SKU:er). Tänk på att Microsoft för närvarande konsoliderar köpalternativ och drar tillbaka Power BI Premium per kapacitets-SKU:er. Nya och befintliga kunder bör överväga att köpa kapacitetsprenumerationer för Infrastrukturresurser (F SKU:er) i stället.
Mer information finns i Viktig uppdatering som kommer till Power BI Premium-licensiering och Vanliga frågor och svar om Power BI Premium.
Den förbättrade beräkningsmotorn förbättrar prestandan för länkade tabeller (inom samma arbetsyta) som refererar till dataflödet (länk till). Så här får du maximal nytta av den förbättrade beräkningsmotorn:
- Dela upp mellanlagrings- och transformeringsdataflödena.
- Använd samma arbetsyta för att lagra mellanlagrings- och transformeringsdataflöden.
- Tillämpa komplexa åtgärder som kan köra frågor mot vikning tidigt i frågestegen. Att prioritera vikbara åtgärder kan hjälpa till att uppnå bästa uppdateringsprestanda.
- Använd inkrementell uppdatering för att minska uppdateringstiderna och resursförbrukningen.
- Utför testning tidigt och ofta under utvecklingsfasen.
Uppdatering av dataflöde och semantisk modell
Ett dataflöde är en datakälla för semantiska modeller. I de flesta fall ingår flera datauppdateringsscheman: ett för varje dataflöde och ett för varje semantisk modell. Du kan också använda DirectQuery från den semantiska modellen till dataflödet, vilket kräver Power BI Premium och den förbättrade beräkningsmotorn (visas inte i scenariodiagrammet).
Azure Data Lake Storage Gen2
Ett ADLS Gen2-konto är en specifik typ av Azure-lagringskonto som har det hierarkiska namnområdet aktiverat. ADLS Gen2 har prestanda-, hanterings- och säkerhetsfördelar för driften av analytiska arbetsbelastningar. Som standard använder Power BI-dataflöden intern lagring, vilket är ett inbyggt Data Lake-konto som hanteras av Power BI-tjänst. Organisationer kan också ta med sin egen datasjö genom att ansluta till ett ADLS Gen2-konto i organisationen.
Här är några fördelar med att använda din egen datasjö:
- Användare (eller processer) kan direkt komma åt dataflödesdata som lagras i datasjön. Det är användbart när återanvändning av dataflöden sker utanför Power BI. Azure Data Factory kan till exempel komma åt dataflödesdata.
- Andra verktyg eller system kan hantera data i datasjön. I det här fallet kan Power BI använda data i stället för att hantera dem (visas inte i scenariodiagrammet).
När du använder länkade tabeller eller beräknade tabeller kontrollerar du att varje arbetsyta har tilldelats samma ADLS Gen2-lagringskonto.
Kommentar
Dataflödesdata i ADLS Gen2 lagras i en Power BI-specifik container. Den här containern visas i scenariodiagrammet för självbetjäning av dataförberedelser .
Inställningar för administratörsportalen
Det finns två viktiga inställningar att hantera i administratörsportalen:
- Azure-anslutningar: Avsnittet Azure-anslutningar i administratörsportalen innehåller en inställning för att konfigurera en anslutning till ett ADLS Gen2-konto. Med den här inställningen kan en Power BI-administratör ta med din egen datasjö till dataflöden. När de har konfigurerats kan arbetsytor använda datasjökontot för lagring.
- Lagring på arbetsyta: En Power BI-administratör kan ange lagringsbehörigheter på arbetsytenivå. När inställningen är aktiverad kan arbetsyteadministratörer använda ett annat lagringskonto än det som anges på klientorganisationsnivå. Att aktivera den här inställningen är användbart för decentraliserade affärsenheter som hanterar sin egen datasjö i Azure.
Gateway-konfiguration
Normalt krävs en lokal datagateway för att ansluta till datakällor som finns i ett privat organisationsnätverk eller ett virtuellt nätverk.
En datagateway krävs när:
- Redigera ett dataflöde i Power Query Online som ansluter till privata organisationsdata.
- Uppdaterar ett dataflöde som ansluter till privata organisationsdata.
Dricks
Dataflöden kräver en centraliserad datagateway i standardläge. En gateway i personligt läge stöds inte när du arbetar med dataflöden.
Systemtillsyn
Aktivitetsloggen registrerar användaraktiviteter som inträffar i Power BI-tjänst. Power BI-administratörer kan använda aktivitetsloggdata som samlas in för att utföra granskning för att hjälpa dem att förstå användningsmönster och implementering. Aktivitetsloggen är också värdefull för att stödja styrningsinsatser, säkerhetsgranskningar och efterlevnadskrav. I scenariot med avancerad dataförberedelse är aktivitetsloggdata användbara för att spåra hantering och användning av dataflöden.
Relaterat innehåll
Andra användbara scenarier som hjälper dig med beslut om Power BI-implementering finns i artikeln Om Power BI-användningsscenarier .