Konfigurera dataflödeslagring för användning av Azure Data Lake Gen 2
Data som används med Power BI lagras i intern lagring som tillhandahålls av Power BI som standard. Med integrering av dataflöden och Azure Data Lake Storage Gen 2 (ADLS Gen2) kan du lagra dina dataflöden i organisationens Azure Data Lake Storage Gen2-konto. Med den här funktionen kan du i princip "ta med din egen lagring" till Power BI-dataflöden och upprätta en anslutning på klient- eller arbetsytenivå.
Anledningar till att använda ADLS Gen 2-arbetsytan eller klientanslutningen
När du har bifogat ditt dataflöde konfigurerar och sparar Power BI en referens så att du nu kan läsa och skriva data till din egen ADLS Gen 2. Power BI lagrar data i CDM-format (Common Data Model), som samlar in metadata om dina data utöver de faktiska data som genereras av själva dataflödet. Den här funktionen låser upp många kraftfulla funktioner och gör att dina data och tillhörande metadata i CDM-format nu kan hantera utökningsbarhet, automatisering, övervakning och säkerhetskopiering. När du gör dessa data tillgängliga och allmänt tillgängliga i din egen miljö kan du demokratisera de insikter och data som skapats i din organisation. Det låser också upp möjligheten för dig att skapa ytterligare lösningar med ett brett spektrum av komplexitet. Dina lösningar kan vara CDM-medvetna anpassade program och lösningar i Power Platform, Azure och de som är tillgängliga via ISV-ekosystem (partner och oberoende programvaruleverantör). Eller så kan du skapa ett program för att läsa en CSV. Dina datatekniker, dataforskare och analytiker kan nu arbeta med, använda och återanvända en gemensam uppsättning data som är kurerade i ADLS Gen 2.
Det finns två sätt att konfigurera vilket ADLS Gen 2-arkiv som ska användas: du kan använda ett klienttilldelat ADLS Gen 2-konto, eller så kan du ta med ditt eget ADLS Gen 2-lager på arbetsytenivå.
Förutsättningar
Om du vill ta med ditt eget ADLS Gen 2-konto måste du ha ägarbehörighet på lagringskontots lager. Behörigheter på resursgrupps- eller prenumerationsnivå fungerar inte. Om du är administratör måste du fortfarande tilldela dig själv behörigheten Ägare. Stöder för närvarande inte ADLS Gen2-lagringskonton bakom en brandvägg.
Lagringskontot måste skapas med det hierarkiska namnområdet (HNS) aktiverat.
Lagringskontot måste skapas i samma Microsoft Entra-klientorganisation som Power BI-klientorganisationen.
Användaren måste ha rollen Lagringsblobdataägare, rollen Storage Blob Data Reader och en ägarroll på lagringskontonivå (omfånget ska vara den här resursen och inte ärvs). Alla tillämpade rolländringar kan ta några minuter att synkronisera och måste synkroniseras innan följande steg kan slutföras i Power BI-tjänst.
Klientregionen för Power BI-arbetsytan bör vara samma som lagringskontots region.
TLS (Transport Layer Security) version 1.2 (eller senare) krävs för att skydda dina slutpunkter. Webbläsare och andra klientprogram som använder TLS-versioner tidigare än TLS 1.2 kommer inte att kunna ansluta.
Det går inte att ansluta ett dataflöde med ADLS Gen 2 bakom multifaktorautentisering (MFA).
Slutligen kan du ansluta till ADLS Gen 2 från administratörsportalen, men om du ansluter direkt till en arbetsyta måste du först se till att det inte finns några dataflöden på arbetsytan innan du ansluter.
Kommentar
Bring Your Own Storage (Azure Data Lake Gen 2) är inte tillgängligt i Power BI-tjänst för U.S. Government GCC-kunder. Mer information om vilka funktioner som är tillgängliga och vilka som inte är det finns i Tillgänglighet för Power BI-funktioner för amerikanska myndighetskunder.
I följande tabell beskrivs behörigheterna för ADLS och för Power BI som krävs för ADLS Gen 2 och Power BI:
Åtgärd | ADLS-behörigheter | Minsta Power BI-behörigheter |
---|---|---|
Anslut ADLS Gen 2 till Power BI-klientorganisationen | Ägare | Power BI-administratör |
Anslut ADLS Gen 2 till arbetsyta | Ägare | Arbetsyteadministratör |
Skapa Power BI-dataflöden som skrivs tillbaka till ett anslutet ADLS-konto | Inte tillämpligt | Arbetsytedeltagare |
Använda Power BI-dataflöde | Inte tillämpligt | Visningsprogram för arbetsyta |
Anslut till en Azure Data Lake Gen 2 på arbetsytenivå
Navigera till en arbetsyta som inte har några dataflöden. Välj Inställningar för arbetsyta. Välj fliken Azure Anslut ions och välj sedan avsnittet Lagring.
Alternativet Använd azure-standardanslutning visas om administratören redan har konfigurerat ett klienttilldelat ADLS Gen 2-konto. Du har två alternativ:
- Använd det klientkonfigurerade ADLS Gen 2-kontot genom att välja rutan Använd standardanslutningen för Azure, eller
- Välj Anslut till Azure för att peka på ett nytt Azure Storage-konto.
När du väljer Anslut till Azure hämtar Power BI en lista över Azure-prenumerationer som du har åtkomst till. Fyll i listrutorna. Välj sedan en giltig Azure-prenumeration, resursgrupp och lagringskonto som har alternativet hierarkiskt namnområde aktiverat, vilket är flaggan ADLS Gen2. Det personliga konto som används för att ansluta till Azure används bara en gång, för att ange den första anslutningen och ge Power BI-tjänst-kontot behörighet att läsa och skriva data, varefter det ursprungliga användarkontot inte längre behövs för att hålla anslutningen aktiv.
När du har valt det valda alternativet väljer du Spara och har nu anslutit arbetsytan till ditt eget ADLS Gen2-konto. Power BI konfigurerar automatiskt lagringskontot med nödvändiga behörigheter och konfigurerar Power BI-filsystemet där data skrivs. I det här läget kommer varje dataflödes data på den här arbetsytan att skriva direkt till det här filsystemet, som kan användas med andra Azure-tjänster. Nu har du en enda källa för alla dina organisations- eller avdelningsdata.
Konfiguration av Azure-anslutningar
Att konfigurera Azure-anslutningar är en valfri inställning med fler egenskaper som kan ställas in:
- Lagring på klientnivå, vilket gör att du kan ange ett standardvärde, och/eller
- Lagring på arbetsyta, vilket gör att du kan ange anslutningen per arbetsyta
Du kan också konfigurera lagring på klientnivå om du bara vill använda en centraliserad datasjö eller vill att lagringen ska vara standardalternativet. Vi börjar inte automatiskt med att använda standardvärdet för att tillåta flexibilitet i konfigurationen, så du har flexibilitet att konfigurera de arbetsytor som använder den här anslutningen som du vill. Om du konfigurerar ett klienttilldelat ADLS Gen 2-konto måste du fortfarande konfigurera varje arbetsyta för att använda det här standardalternativet.
Du kan också konfigurera lagringsbehörigheter på arbetsytenivå som ett separat alternativ, vilket ger fullständig flexibilitet att ange ett specifikt ADLS Gen 2-konto på arbetsyta efter arbetsyta.
Sammanfattningsvis, om lagring på klientnivå och lagringsbehörigheter på arbetsytan tillåts, kan arbetsyteadministratörer eventuellt använda ADLS-standardanslutningen eller välja att konfigurera ett annat lagringskonto separat från standardvärdet. Om klientlagring inte har angetts kan arbetsyteadministratörer eventuellt konfigurera ADLS-konton på en arbetsyta efter arbetsyta. Om lagring på klientnivå har valts och lagring på arbetsytenivå inte tillåts kan arbetsyteadministratörer eventuellt konfigurera sina dataflöden så att de använder den här anslutningen.
Struktur och format för ADLS Gen 2-arbetsyteanslutningar
I ADLS Gen 2-lagringskontot lagras alla dataflöden i powerbi-containern i filsystemet.
Strukturen för powerbi-containern ser ut så här: <workspace name>/<dataflow name>/model.json
, <workspace name>/<dataflow name>/model.json.snapshots/<all snapshots>
och <workspace name>/<dataflow name>/<table name>/<tablesnapshots>
Platsen där dataflöden lagrar data i mapphierarkin för ADLS Gen 2 är densamma oavsett om arbetsytan finns i delad kapacitet eller Premium-kapacitet.
I följande exempel används tabellen Beställningar i Exemplet Northwind Odata.
I föregående bild:
- Model.json är den senaste versionen av dataflödet.
- Model.json.snapshots är alla tidigare versioner av dataflödet. Den här historiken är användbar om du behöver en tidigare version av kombinationsprogram eller inkrementella inställningar.
- Tabellnamnet är mappen som innehåller resulterande data när en dataflödesuppdatering har slutförts.
Vi skriver bara till det här lagringskontot och tar för närvarande inte bort data. Så även efter frånkopplingen tar vi inte bort från ADLS-kontot, så alla filer som nämns i föregående lista lagras fortfarande.
Kommentar
Med dataflöden kan du länka eller referera till inmatade dataflöden. I sådana dataflöden kan filen model.json referera till en annan model.json för ett annat dataflöde på samma eller annan arbetsyta.
Flytta filer mellan/inom ADLS Gen 2-lagringskonton
När du flyttar ett dataflöde från ett ADLS Gen2-lagringskonto till ett annat måste du se till att sökvägarna i filen model.json uppdateras för att återspegla den nya platsen. Det beror på att filen model.json innehåller sökvägen till dataflödet och sökvägen till data. Om du inte uppdaterar sökvägarna kommer dataflödet inte att kunna hitta data och orsaka behörighetsfel. Om du vill uppdatera sökvägarna kan du använda följande steg:
- Öppna filen model.json i en textredigerare.
- Leta reda på lagringskontots URL och ersätt den med den nya lagringskonto-URL:en.
- Spara filen.
- Skriv över den befintliga model.json-filen i ADLS Gen2-lagringskontot.
Utökningsbarhet för ADLS Gen 2-arbetsyteanslutningar
Om du ansluter ADLS Gen 2 till Power BI kan du göra den här åtgärden på arbetsyta eller klientorganisationsnivå. Kontrollera att du har rätt åtkomstnivå. Läs mer i Förutsättningar.
Lagringsstrukturen följer Common Data Model-formatet. Läs mer om lagringsstrukturen och CDM genom att gå till Vad är lagringsstrukturen för analytiska dataflöden och använda Common Data Model för att optimera Azure Data Lake Storage Gen2.
När den har konfigurerats korrekt finns data och metadata i din kontroll. Många program är medvetna om CDM och data kan utökas med hjälp av Azure, PowerApps och PowerAutomate. Du kan också använda ekosystem från tredje part antingen genom att följa formatet eller genom att läsa rådata.
Koppla från Azure Data Lake Gen 2 från en arbetsyta eller klientorganisation
Om du vill ta bort en anslutning på arbetsytans nivå måste du först se till att alla dataflöden i arbetsytan tas bort. När alla dataflöden har tagits bort väljer du Koppla från i inställningarna för arbetsytan. Detsamma gäller för en klientorganisation, men du måste först se till att alla arbetsytor också har kopplats från klientlagringskontot innan du kan koppla från på klientnivå.
Inaktivera Azure Data Lake Gen 2
I administratörsportalen, under dataflöden, kan du inaktivera åtkomst för användare att antingen använda den här funktionen och kan inte tillåta att arbetsyteadministratörer tar med sin egen Azure Storage.
Återställ från Azure Data Lake Gen 2
När dataflödeslagringen har konfigurerats för att använda Azure Data Lake Gen 2 går det inte att återställa automatiskt. Processen för att återgå till Power BI-hanterad lagring är manuell.
Om du vill återställa migreringen till Gen 2 måste du ta bort dina dataflöden och återskapa dem på samma arbetsyta. Eftersom vi inte tar bort data från ADLS Gen 2 går du sedan till själva resursen och rensar data. Den här åtgärden skulle omfatta följande steg.
Exportera en kopia av dataflödet från Power BI. Eller kopiera filen model.json. Filen model.json lagras i ADLS.
Ta bort dataflödena.
Koppla från ADLS.
Återskapa dataflödena med hjälp av import. Inkrementella uppdateringsdata (om tillämpligt) måste tas bort före importen. Den här åtgärden kan utföras genom att ta bort relevanta partitioner i filen model.json.
Konfigurera principer för uppdatering/återskapa inkrementell uppdatering.
Anslut till data med hjälp av ADLS Gen 2-anslutningsappen
Omfånget för det här dokumentet beskriver ADLS Gen 2-dataflöden och inte Power BI ADLS Gen 2-anslutningsappen. Att arbeta med ADLS Gen 2-anslutningsappen är ett separat scenario, möjligen additivt. ADLS-anslutningstjänsten använder helt enkelt ADLS som en datakälla. Så att använda Power Query Online för att fråga mot dessa data behöver inte vara i CDM-format, det kan vara vilket dataformat kunden vill ha. Mer information finns i Azure Data Lake Storage Gen2.
Relaterat innehåll
Följande artiklar innehåller mer information om dataflöden och Power BI: