Zrychlení přípravy dat pomocí služby Data Wrangler v Microsoft Fabric

Nástroj Data Wrangler je prostředek založený na poznámkovém bloku, který poskytuje imerzivní rozhraní pro průzkumnou analýzu dat. Kombinuje zobrazení dat podobných mřížce s dynamickými souhrnnými statistikami, integrovanými vizualizacemi a knihovnou běžných operací čištění dat. Každou operaci můžete použít několika kroky. Můžete aktualizovat zobrazení dat v reálném čase a vygenerovat kód v knihovně pandas nebo PySpark, který můžete uložit zpět do poznámkového bloku jako opakovaně použitelnou funkci. Tento článek se zaměřuje na zkoumání a transformaci datových rámců pandas. Další informace o používání služby Data Wrangler ve sparkových datových rámcích najdete v tomto prostředku.

Požadavky

Omezení

  • Operace s vlastním kódem jsou v současné době podporovány pouze pro datové rámce pandas.
  • Zobrazení Wrangler dat funguje nejlépe na velkých monitorech, i když můžete minimalizovat nebo skrýt různé části rozhraní, aby se přizpůsobily menším obrazovkám.

Spuštění služby Wrangler dat

Data Wrangler můžete spustit přímo z poznámkového bloku Microsoft Fabric a prozkoumat a transformovat libovolný datový rámec pandas nebo Spark. Další informace o používání služby Data Wrangler se sparkovými datovými rámci najdete v tomto doprovodném článku. Tento fragment kódu ukazuje, jak číst ukázková data do datového rámce pandas:

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

Na kartě Domů na pásu karet poznámkového bloku pomocí rozevíracího seznamu Transformace dat procházejte aktivní datové rámce, které jsou k dispozici pro úpravy. Vyberte ten, který chcete otevřít ve službě Data Wrangler.

Tip

V době, kdy je jádro poznámkového bloku zaneprázdněné, nelze otevřít rozhraní Wrangler dat. Spuštěná buňka musí dokončit své spuštění před spuštěním služby Data Wrangler, jak je znázorněno na tomto snímku obrazovky:

Snímek obrazovky s poznámkovým blokem Prostředků infrastruktury s rozevíracím seznamem Data Wrangler

Výběr vlastních ukázek

Pokud chcete otevřít vlastní ukázku libovolného aktivního datového rámce s objektem Data Wrangler, vyberte v rozevíracím seznamu možnost Zvolit vlastní ukázku, jak je znázorněno na tomto snímku obrazovky:

Snímek obrazovky s rozevíracím seznamem Data Wrangler s vyznačenou možností vlastní ukázky

Tím se spustí automaticky otevírané okno s možnostmi pro určení velikosti požadovaného vzorku (počet řádků) a metody vzorkování (první záznamy, poslední záznamy nebo náhodná sada). Prvních 5 000 řádků datového rámce slouží jako výchozí velikost vzorku, jak je znázorněno na tomto snímku obrazovky:

Snímek obrazovky s výzvou k vlastní ukázce transformace dat

Zobrazení souhrnných statistik

Když se data Wrangler načte, zobrazí se na panelu Souhrn popisný přehled zvoleného datového rámce. Tento přehled obsahuje informace o dimenzích datového rámce, chybějících hodnotách a dalších. Výběr libovolného sloupce v mřížce transformace dat vyzve panel Souhrn k aktualizaci a zobrazení popisných statistik o daném sloupci. Rychlé přehledy o každém sloupci jsou k dispozici také v záhlaví.

Tip

Statistiky a vizuály specifické pro sloupce (jak na panelu Souhrn, tak v záhlaví sloupců) závisí na datovém typu sloupce. Například binned histogram číselného sloupce se zobrazí v záhlaví sloupce pouze v případě, že se sloupec přetypuje jako číselný typ, jak je znázorněno na tomto snímku obrazovky:

Snímek obrazovky znázorňující mřížku zobrazení transformace dat a panel Souhrn

Operace čištění dat procházením

Prohledávatelný seznam kroků čištění dat najdete na panelu Operace. Na panelu Operace vás výběr kroku čištění dat vyzve k zadání cílového sloupce nebo sloupců spolu s potřebnými parametry pro dokončení kroku. Například výzva k číselnému škálování sloupce vyžaduje nový rozsah hodnot, jak je znázorněno na tomto snímku obrazovky:

Snímek obrazovky s provozním panelem Transformace dat

Tip

V nabídce záhlaví každého sloupce můžete použít menší výběr operací, jak je znázorněno na tomto snímku obrazovky:

Snímek obrazovky znázorňující operaci Transformace dat, kterou je možné použít z nabídky záhlaví sloupce

Zobrazení náhledu a použití operací

Mřížka transformace dat automaticky zobrazí náhled výsledků vybrané operace a odpovídající kód se automaticky zobrazí na panelu pod mřížkou. Náhled kódu potvrdíte tak, že na libovolném místě vyberete Použít. Pokud chcete odstranit náhled kódu a vyzkoušet novou operaci, vyberte Zahodit, jak je znázorněno na tomto snímku obrazovky:

Snímek obrazovky znázorňující probíhající operaci transformace dat

Po použití operace se zobrazí mřížka a souhrnná statistika služby Data Wrangler, aby odrážely výsledky. Kód se zobrazí v seznamu spuštěných potvrzených operací umístěných na panelu "Kroky čištění", jak je znázorněno na tomto snímku obrazovky:

Snímek obrazovky znázorňující použitou operaci transformace dat

Tip

Poslední použitý krok můžete kdykoli vrátit zpět. Na panelu "Kroky čištění" se zobrazí ikona koše, pokud najedete kurzorem na naposledy použitý krok, jak je znázorněno na tomto snímku obrazovky:

Snímek obrazovky znázorňující operaci transformace dat, která se dá vrátit zpět

Tato tabulka shrnuje operace, které služba Data Wrangler aktuálně podporuje:

Operace Popis
Sort Seřazení sloupce ve vzestupném nebo sestupném pořadí
Filtr Filtrování řádků na základě jedné nebo více podmínek
Kódování s jedním horkým kódováním Vytvořte nové sloupce pro každou jedinečnou hodnotu v existujícím sloupci, což označuje přítomnost nebo absenci těchto hodnot na řádek.
Kódování s jedním horkým kódem s oddělovačem Rozdělení a kódování kategorických dat s jedním horkým kódováním pomocí oddělovače
Změna typu sloupce Změna datového typu sloupce
Drop column Odstranění jednoho nebo více sloupců
Vybrat sloupec Zvolte jeden nebo více sloupců, které chcete zachovat, a zbytek odstraňte.
Přejmenovat sloupec Přejmenování sloupce
Vyřazení chybějících hodnot Odebrání řádků s chybějícími hodnotami
Přetažení duplicitních řádků Odstranění všech řádků s duplicitními hodnotami v jednom nebo více sloupcích
Vyplnění chybějících hodnot Nahrazení buněk chybějícími hodnotami novou hodnotou
Vyhledání a nahrazení Nahrazení buněk přesným vzorem porovnávání
Seskupení podle sloupce a agregace Seskupení podle hodnot sloupců a agregovaných výsledků
Pruh prázdných znaků Odebrání prázdných znaků od začátku a konce textu
Rozdělení textu Rozdělení sloupce na několik sloupců na základě uživatelem definovaného oddělovače
Převod textu na malá písmena Převod textu na malá písmena
Převod textu na velká písmena Převod textu na VELKÁ PÍSMENA
Škálování minimálních a maximálních hodnot Škálování číselného sloupce mezi minimální a maximální hodnotou
Dynamické doplňování Automatické vytvoření nového sloupce na základě příkladů odvozených z existujícího sloupce

Úprava zobrazení

Rozhraní můžete kdykoli přizpůsobit pomocí karty Zobrazení na panelu nástrojů umístěným nad mřížkou zobrazení Transformace dat. Můžete tak skrýt nebo zobrazit různá podokna podle vašich předvoleb a velikosti obrazovky, jak je znázorněno na tomto snímku obrazovky:

Snímek obrazovky s nabídkou Transformace dat pro přizpůsobení zobrazení

Ukládání a export kódu

Panel nástrojů nad mřížkou zobrazení Transformace dat poskytuje možnosti pro uložení vygenerovaného kódu. Kód můžete zkopírovat do schránky nebo ho exportovat do poznámkového bloku jako funkci. Export kódu zavře službu Data Wrangler a přidá novou funkci do buňky kódu v poznámkovém bloku. Vyčištěný datový rámec si také můžete stáhnout jako soubor CSV.

Tip

Služba Wrangler dat generuje kód, který se použije jenom při ručním spuštění nové buňky, a nepřepíše původní datový rámec, jak je znázorněno na tomto snímku obrazovky:

Snímek obrazovky s možnostmi exportu kódu v objektu Data Wrangler

Pak můžete tento exportovaný kód spustit, jak je znázorněno na tomto snímku obrazovky:

Snímek obrazovky znázorňující kód vygenerovaný službou Data Wrangler zpět v poznámkovém bloku