Högdensitetssampling av linjer i Power BI
Samplingsalgoritmen i Power BI förbättrar visuella objekt som provar högdensitetsdata. Du kan till exempel skapa ett linjediagram från dina butikers försäljningsresultat, där varje butik har fler än 10 000 försäljningskvitton varje år. Ett linjediagram med sådan försäljningsinformation skulle sampla data från data för varje lager och skapa ett linjediagram i flera serier som därmed representerar underliggande data. Se till att välja en meningsfull representation av dessa data för att illustrera hur försäljningen varierar över tid. Den här metoden är vanlig när det gäller att visualisera data med hög densitet. Information om datasampling med hög densitet beskrivs i den här artikeln.
Kommentar
Algoritmen för högdensitetssampling som beskrivs i den här artikeln är tillgänglig i både Power BI Desktop och Power BI-tjänst.
Så här fungerar högdensitetssampling av linjer
Tidigare valde Power BI en samling exempeldatapunkter i hela intervallet av underliggande data på ett deterministiskt sätt. Med data med hög densitet på ett visuellt objekt som sträcker sig över ett kalenderår kan det till exempel finnas 350 exempeldatapunkter som visas i det visuella objektet, som vart och ett har valts för att säkerställa att hela dataområdet representeras i det visuella objektet. För att förstå hur detta sker kan du tänka dig att rita en aktiekurs under en ettårsperiod och välja 365 datapunkter för att skapa ett visuellt linjediagram. Det är en datapunkt för varje dag.
I den situationen finns det många värden för en aktiekurs inom varje dag. Naturligtvis finns det en daglig hög och låg, men de kan inträffa när som helst under dagen när aktiemarknaden är öppen. Om det underliggande dataexemplet togs klockan 10:30 och 12:00 varje dag för högdensitetssampling skulle du få en representativ ögonblicksbild av underliggande data, till exempel priset kl. 10:30 och 12:00. Ögonblicksbilden kanske dock inte fångar upp den faktiska höga och låga aktiekursen för den representativa datapunkten den dagen. I den situationen och andra är samplingen representativ för underliggande data, men den samlar inte alltid in viktiga punkter, vilket i det här fallet skulle vara dagliga aktiekurshöjder och lägsta.
Per definition samplas data med hög densitet för att skapa visualiseringar relativt snabbt som svarar mot interaktivitet. För många datapunkter i ett visuellt objekt kan förringa det och kan förringa synligheten för trender. Hur data samplas är det som driver skapandet av samplingsalgoritmen för att ge bästa möjliga visualiseringsupplevelse. I Power BI Desktop ger algoritmen den bästa kombinationen av svarstider, representation och tydligt bevarande av viktiga punkter i varje tidssektor.
Så här fungerar den nya algoritmen för radsampling
Algoritmen för högdensitetssampling av linjer är tillgänglig för visuella objekt i linjediagram och ytdiagram med en kontinuerlig x-axel.
För ett visuellt objekt med hög densitet delar Power BI intelligent ut dina data i segment med hög upplösning och väljer sedan viktiga punkter som representerar varje segment. Den processen för att dela upp högupplösta data justeras för att säkerställa att det resulterande diagrammet är visuellt oskiljaktigt från rendering av alla underliggande datapunkter men är snabbare och mer interaktivt.
Lägsta och högsta värden för visuella objekt med hög densitet
För alla visualiseringar gäller följande begränsningar:
3 500 är det maximala antalet datapunkter som visas i de flesta visuella objekt, oavsett antalet underliggande datapunkter eller serier, se undantag i följande lista. Om du till exempel har 10 serier med 350 datapunkter vardera har det visuella objektet nått sin maximala totala datapunktsgräns. Om du har en serie kan den ha upp till 3 500 datapunkter om algoritmen anser att det är den bästa samplingen för underliggande data.
Det finns högst 60 serier för alla visuella objekt. Om du har fler än 60 serier kan du dela upp data och skapa flera visuella objekt med 60 eller färre serier vardera. Det är bra att använda ett utsnitt för att endast visa segment av data, men bara för vissa serier. Om du till exempel visar alla underkategorier i förklaringen kan du använda ett utsnitt för att filtrera efter den övergripande kategorin på samma rapportsida.
Det maximala antalet datagränser är högre för följande visuella typer, vilket är undantag från datapunktsgränsen på 3 500:
- Maximalt 150 000 datapunkter för visuella R-objekt.
- 30 000 datapunkter för visuella Azure Map-objekt.
- 10 000 datapunkter för vissa punktdiagramskonfigurationer (punktdiagram är som standard 3 500).
- 3 500 för alla andra visuella objekt med högdensitetssampling. Vissa andra visuella objekt kan visualisera mer data, men de använder inte sampling.
Dessa parametrar säkerställer att visuella objekt i Power BI Desktop återges snabbt, svarar på interaktion med användare och inte resulterar i onödiga beräkningskostnader på datorn som återger det visuella objektet.
Utvärdera representativa datapunkter för visuella objekt med hög densitet
När antalet underliggande datapunkter överskrider det maximala antalet datapunkter som kan representeras i det visuella objektet börjar en process som kallas binning . Genom att gruppera segmenterar underliggande data i grupper som kallas lagerplatser och förfinas sedan dessa lagerplatser iterativt.
Algoritmen skapar så många lagerplatser som möjligt för att skapa den största kornigheten för det visuella objektet. I varje lagerplats hittar algoritmen det lägsta och högsta datavärdet för att säkerställa att viktiga och betydande värden, till exempel avvikande värden, samlas in och visas i det visuella objektet. Baserat på resultatet av binning och efterföljande utvärdering av data från Power BI bestäms den minsta upplösningen för x-axeln för det visuella objektet för att säkerställa maximal kornighet för det visuella objektet.
Som tidigare nämnts är den minsta kornigheten för varje serie 350 poäng och det maximala värdet är 3 500 för de flesta visuella objekt. Undantagen visas i föregående stycken.
Varje lagerplats representeras av två datapunkter, som blir lagerplatsens representativa datapunkter i det visuella objektet. Datapunkterna är det höga och låga värdet för den lagerplatsen. Genom att välja hög och låg ser binningsprocessen till att alla viktiga höga värden eller betydande låga värden samlas in och återges i det visuella objektet.
Om det låter som en hel del analys för att säkerställa att enstaka extremvärden registreras och visas korrekt i det visuella objektet, har du rätt. Det är den exakta orsaken till algoritmen och binningsprocessen.
Knappbeskrivningar och högdensitetssampling av linjer
Det är viktigt att observera att den här binningsprocessen, vilket resulterar i att det lägsta och högsta värdet i en viss lagerplats samlas in och visas, kan påverka hur knappbeskrivningar visar data när du hovra över datapunkterna. För att förklara hur och varför detta inträffar ska vi gå tillbaka till vårt exempel om aktiekurser.
Anta att du skapar ett visuellt objekt baserat på aktiekursen och att du jämför två olika aktier, som båda använder högdensitetssampling. Underliggande data för varje serie har många datapunkter. Till exempel kanske du fångar aktiekursen varje sekund på dagen. Algoritmen för högdensitetssampling utför binning för varje serie oberoende av den andra.
Låt oss nu säga att den första aktien hoppar upp i pris klockan 12:02 och sedan snabbt kommer tillbaka ner 10 sekunder senare. Det är en viktig datapunkt. När binning sker för det lagret är den höga nivån vid 12:02 en representativ datapunkt för den lagerplatsen.
Men för den andra aktien var 12:02 inte en hög eller låg i lagerplatsen som inkluderade den tiden. Kanske hög och låg för den lagerplats som innehåller 12:02 inträffade tre minuter senare. I så fall visas ett värde i knappbeskrivningen för den första aktien när linjediagrammet skapas och du hovra över 12:02. Det beror på att den hoppade vid 12:02 och det värdet valdes som den platsens höga datapunkt. Du ser dock inget värde i knappbeskrivningen kl. 12:02 för den andra aktien. Det beror på att den andra aktien inte hade en hög eller låg för den lagerplats som inkluderade 12:02. Därför finns det inga data att visa för det andra lagret kl. 12:02, och därför visas inga knappbeskrivningsdata.
Den här situationen inträffar ofta med knappbeskrivningar. De höga och låga värdena för en specifik lagerplats matchar förmodligen inte perfekt med de jämnt skalade x-axelns värdepunkter, och knappbeskrivningen visar inte värdet.
Aktivera högdensitetssampling av linjer
Som standard är algoritmen På. Om du vill ändra den här inställningen går du till formateringsfönstret, på kortet Allmänt och längst ned ser du skjutreglaget För högdensitetssampling. Välj skjutreglaget för att växla På eller Av.
Beaktanden och begränsningar
Algoritmen för högdensitetssampling av linjer är en viktig förbättring av Power BI, men det finns några saker du behöver tänka på när du arbetar med högdensitetsvärden och data.
På grund av ökad kornighet och binningsprocessen kan knappbeskrivningar bara visa ett värde om representativa data är justerade med markören. Mer information finns i avsnittet Knappbeskrivningar och högdensitetslinjesampling i den här artikeln.
När storleken på en övergripande datakälla är för stor eliminerar algoritmen serier (förklaringselement) för att hantera maximal begränsning för dataimport.
- I det här fallet beställer algoritmen förklaringsserien alfabetiskt och startar listan med förklaringselement i alfabetisk ordning tills dataimportens maxvärde har nåtts och importerar inte fler serier.
När en underliggande datauppsättning har fler än 60 serier, det maximala antalet serier, beställer algoritmen serien alfabetiskt och eliminerar serier utöver den 60:e alfabetiskt ordnade serien.
Om värdena i data inte är av typen numeriskt eller datum/tid använder Power BI inte algoritmen och återgår till den tidigare algoritmen för icke-högdensitetssampling.
Inställningen Visa objekt utan data stöds inte med algoritmen.
Algoritmen stöds inte när du använder en live-anslutning till en modell som finns i SQL Server Analysis Services version 2016 eller tidigare. Det stöds i modeller som finns i Power BI eller Azure Analysis Services.