Průvodce rozhodováním Microsoft Fabric: Volba úložiště dat

Tento referenční průvodce a ukázkové scénáře vám pomůžou zvolit úložiště dat pro vaše úlohy Microsoft Fabric.

Vlastnosti úložiště dat

Tato tabulka porovnává úložiště dat, jako je sklad, jezero, datový diagram Power BI a eventhouse na základě objemu dat, typu, osoby vývojáře, sady dovedností, operací. a další možnosti.

Sklad Jezero Power BI Datamart Eventhouse
Objem dat Bez omezení Bez omezení Až 100 GB Bez omezení
Typ dat Strukturovaná Nestrukturovaná, částečně strukturovaná, strukturovaná Strukturovaná Nestrukturovaná, částečně strukturovaná, strukturovaná
Primární osoba vývojáře Vývojář datového skladu, technik SQL Datový inženýr, datový vědec Občanský vývojář Datový vědec občana, datový inženýr, datový vědec, inženýr SQL
Sada dovedností primárního vývojáře SQL Spark(Scala, PySpark, Spark SQL, R) Žádný kód, SQL Žádný kód, KQL, SQL
Data uspořádaná podle Databáze, schémata a tabulky Složky a soubory, databáze a tabulky Databáze, tabulky, dotazy Databáze, schémata a tabulky
Operace čtení T-SQL, Spark (podporuje čtení z tabulek pomocí klávesových zkratek, zatím nepodporuje přístup k zobrazením, uloženým procedurám, funkcím atd.) Spark, T-SQL Spark, T-SQL, Power BI KQL, T-SQL, Spark, Power BI
Operace zápisu T-SQL Spark(Scala, PySpark, Spark SQL, R) Toky dat, T-SQL KQL, Spark, ekosystém konektorů
Transakce s více tabulkami Yes No Ne Ano, pro příjem více tabulek. Viz zásady aktualizace.
Primární vývojové rozhraní Skripty SQL Poznámkové bloky Sparku, definice úloh Sparku Power BI Sada dotazů KQL, databáze KQL
Zabezpečení Úroveň objektu (tabulka, zobrazení, funkce, uložená procedura atd.), úroveň sloupce, úroveň řádku, DDL/DML, dynamické maskování dat Úroveň řádku, úroveň sloupce (pro lakehouse, ke které se přistupuje prostřednictvím koncového bodu analýzy SQL), úroveň tabulky (při použití T-SQL), žádná pro Spark Integrovaný editor zabezpečení na úrovni řádků Zabezpečení na úrovni řádku
Přístup k datům prostřednictvím zástupců Ano, prostřednictvím jezerahouse s použitím třídílných názvů Yes Ne Ano
Může to být zdroj pro klávesové zkratky. Ano (tabulky) Ano (soubory a tabulky) No Ano
Dotazování napříč položkami Ano, dotazování napříč tabulkami lakehouse a skladu Ano, dotazování napříč tabulkami lakehouse a skladu; dotazování napříč lakehousemi (včetně klávesových zkratek pomocí Sparku) No Ano, dotazování napříč databázemi KQL, jezery a sklady pomocí klávesových zkratek

Scénáře

V těchto scénářích najdete pomoc s výběrem úložiště dat v prostředcích infrastruktury.

Scénář 1

Susan, profesionální vývojář, je pro Microsoft Fabric novinkou. Jsou připravení začít s čištěním, modelováním a analýzou dat, ale musí se rozhodnout vytvořit datový sklad nebo jezero. Po kontrole podrobností v předchozí tabulce jsou primární rozhodovací body dostupnou sadou dovedností a potřebou transakcí s více tabulkami.

Susan strávila mnoho let sestavováním datových skladů na relačních databázových strojích a je obeznámena se syntaxí a funkcemi SQL. Když uvažujete o větším týmu, primární uživatelé těchto dat mají také zkušenosti s analytickými nástroji SQL a SQL. Susan se rozhodne použít datový sklad, který týmu umožňuje pracovat primárně s T-SQL a zároveň umožnit všem uživatelům Sparku v organizaci přístup k datům.

Susan vytvoří nový lakehouse a přistupuje k funkcím datového skladu pomocí koncového bodu analýzy SQL lakehouse. Pomocí portálu Fabric vytvoří zástupce tabulek externích dat a umístí je do /Tables složky. Susan teď může psát dotazy T-SQL, které odkazují na zástupce pro dotazování dat Delta Lake v lakehouse. Klávesové zkratky se automaticky zobrazí jako tabulky v koncovém bodu analýzy SQL a dají se dotazovat pomocí T-SQL pomocí třídílných názvů.

Scénář 2

Rob, datový inženýr, potřebuje ukládat a modelovat několik terabajtů dat v Prostředcích infrastruktury. Tým má kombinaci dovedností PySpark a T-SQL. Většina týmů, na kterých běží dotazy T-SQL, jsou příjemci, a proto nemusí psát příkazy INSERT, UPDATE nebo DELETE. Zbývající vývojáři dobře pracují v poznámkových blocích a protože jsou data uložená v Delta, můžou pracovat s podobnou syntaxí SQL.

Rob se rozhodne použít lakehouse, který týmu pro přípravu dat umožňuje využívat své různorodé dovednosti vůči datům a zároveň umožnit členům týmu, kteří jsou vysoce kvalifikovaní v T-SQL, aby data spotřebovával.

Scénář 3

Ash, občan, vývojář, je vývojář Power BI. Jsou obeznámeni s Excelem, Power BI a Office. Potřebují vytvořit datový produkt pro obchodní jednotku. Vědí, že nemají dost dovedností k vytvoření datového skladu nebo jezera, a ty se zdají být příliš moc pro své potřeby a objemy dat. Projdou si podrobnosti v předchozí tabulce a zjistí, že primární rozhodovací body jsou jejich vlastní dovednosti a že potřebují samoobslužnou službu, žádné schopnosti kódu a objem dat pod 100 GB.

Ash spolupracuje s obchodními analytiky, kteří jsou obeznámeni s Power BI a systém Microsoft Office, a ví, že už mají předplatné kapacity Premium. Vzhledem k tomu, že si myslí o svém větším týmu, si uvědomí, že primární spotřebitelé těchto dat mohou být analytici, kteří znají bez kódu a analytické nástroje SQL. Ash se rozhodne použít datový diagram Power BI, který týmu umožňuje rychle vytvářet možnosti pomocí prostředí bez kódu. Dotazy je možné spouštět prostřednictvím Power BI a T-SQL a zároveň umožnit všem uživatelům Sparku v organizaci přístup k datům.

Scénář 4

Daisy je obchodní analytik zkušený s využitím Power BI k analýze kritických bodů dodavatelského řetězce pro rozsáhlý globální maloobchodní řetězec. Potřebují vytvořit škálovatelné datové řešení, které dokáže zpracovávat miliardy řádků dat a lze je použít k vytváření řídicích panelů a sestav, které je možné použít k obchodním rozhodnutím. Data pocházejí z rostlin, dodavatelů, odesílatelů a dalších zdrojů v různých strukturovaných, částečně strukturovaných a nestrukturovaných formátech.

Daisy se rozhodne používat eventhouse kvůli škálovatelnosti, rychlé době odezvy, pokročilým analytickým možnostem, včetně analýzy časových řad, geoprostorových funkcí a rychlého režimu přímého dotazu v Power BI. Dotazy je možné spouštět pomocí Power BI a KQL k porovnání mezi aktuálními a předchozími obdobími, rychle identifikovat vznikající problémy nebo poskytovat geoprostorovou analýzu vnitrozemí a námořních tras.