Průvodce rozhodováním Microsoft Fabric: Volba úložiště dat
Tento referenční průvodce a ukázkové scénáře vám pomůžou zvolit úložiště dat pro vaše úlohy Microsoft Fabric.
Vlastnosti úložiště dat
Tato tabulka porovnává úložiště dat, jako je sklad, jezero, datový diagram Power BI a eventhouse na základě objemu dat, typu, osoby vývojáře, sady dovedností, operací. a další možnosti.
Sklad | Jezero | Power BI Datamart | Eventhouse | |
---|---|---|---|---|
Objem dat | Bez omezení | Bez omezení | Až 100 GB | Bez omezení |
Typ dat | Strukturovaná | Nestrukturovaná, částečně strukturovaná, strukturovaná | Strukturovaná | Nestrukturovaná, částečně strukturovaná, strukturovaná |
Primární osoba vývojáře | Vývojář datového skladu, technik SQL | Datový inženýr, datový vědec | Občanský vývojář | Datový vědec občana, datový inženýr, datový vědec, inženýr SQL |
Sada dovedností primárního vývojáře | SQL | Spark(Scala, PySpark, Spark SQL, R) | Žádný kód, SQL | Žádný kód, KQL, SQL |
Data uspořádaná podle | Databáze, schémata a tabulky | Složky a soubory, databáze a tabulky | Databáze, tabulky, dotazy | Databáze, schémata a tabulky |
Operace čtení | T-SQL, Spark (podporuje čtení z tabulek pomocí klávesových zkratek, zatím nepodporuje přístup k zobrazením, uloženým procedurám, funkcím atd.) | Spark, T-SQL | Spark, T-SQL, Power BI | KQL, T-SQL, Spark, Power BI |
Operace zápisu | T-SQL | Spark(Scala, PySpark, Spark SQL, R) | Toky dat, T-SQL | KQL, Spark, ekosystém konektorů |
Transakce s více tabulkami | Yes | No | Ne | Ano, pro příjem více tabulek. Viz zásady aktualizace. |
Primární vývojové rozhraní | Skripty SQL | Poznámkové bloky Sparku, definice úloh Sparku | Power BI | Sada dotazů KQL, databáze KQL |
Zabezpečení | Úroveň objektu (tabulka, zobrazení, funkce, uložená procedura atd.), úroveň sloupce, úroveň řádku, DDL/DML, dynamické maskování dat | Úroveň řádku, úroveň sloupce (pro lakehouse, ke které se přistupuje prostřednictvím koncového bodu analýzy SQL), úroveň tabulky (při použití T-SQL), žádná pro Spark | Integrovaný editor zabezpečení na úrovni řádků | Zabezpečení na úrovni řádku |
Přístup k datům prostřednictvím zástupců | Ano, prostřednictvím jezerahouse s použitím třídílných názvů | Yes | Ne | Ano |
Může to být zdroj pro klávesové zkratky. | Ano (tabulky) | Ano (soubory a tabulky) | No | Ano |
Dotazování napříč položkami | Ano, dotazování napříč tabulkami lakehouse a skladu | Ano, dotazování napříč tabulkami lakehouse a skladu; dotazování napříč lakehousemi (včetně klávesových zkratek pomocí Sparku) | No | Ano, dotazování napříč databázemi KQL, jezery a sklady pomocí klávesových zkratek |
Scénáře
V těchto scénářích najdete pomoc s výběrem úložiště dat v prostředcích infrastruktury.
Scénář 1
Susan, profesionální vývojář, je pro Microsoft Fabric novinkou. Jsou připravení začít s čištěním, modelováním a analýzou dat, ale musí se rozhodnout vytvořit datový sklad nebo jezero. Po kontrole podrobností v předchozí tabulce jsou primární rozhodovací body dostupnou sadou dovedností a potřebou transakcí s více tabulkami.
Susan strávila mnoho let sestavováním datových skladů na relačních databázových strojích a je obeznámena se syntaxí a funkcemi SQL. Když uvažujete o větším týmu, primární uživatelé těchto dat mají také zkušenosti s analytickými nástroji SQL a SQL. Susan se rozhodne použít datový sklad, který týmu umožňuje pracovat primárně s T-SQL a zároveň umožnit všem uživatelům Sparku v organizaci přístup k datům.
Susan vytvoří nový lakehouse a přistupuje k funkcím datového skladu pomocí koncového bodu analýzy SQL lakehouse. Pomocí portálu Fabric vytvoří zástupce tabulek externích dat a umístí je do /Tables
složky. Susan teď může psát dotazy T-SQL, které odkazují na zástupce pro dotazování dat Delta Lake v lakehouse. Klávesové zkratky se automaticky zobrazí jako tabulky v koncovém bodu analýzy SQL a dají se dotazovat pomocí T-SQL pomocí třídílných názvů.
Scénář 2
Rob, datový inženýr, potřebuje ukládat a modelovat několik terabajtů dat v Prostředcích infrastruktury. Tým má kombinaci dovedností PySpark a T-SQL. Většina týmů, na kterých běží dotazy T-SQL, jsou příjemci, a proto nemusí psát příkazy INSERT, UPDATE nebo DELETE. Zbývající vývojáři dobře pracují v poznámkových blocích a protože jsou data uložená v Delta, můžou pracovat s podobnou syntaxí SQL.
Rob se rozhodne použít lakehouse, který týmu pro přípravu dat umožňuje využívat své různorodé dovednosti vůči datům a zároveň umožnit členům týmu, kteří jsou vysoce kvalifikovaní v T-SQL, aby data spotřebovával.
Scénář 3
Ash, občan, vývojář, je vývojář Power BI. Jsou obeznámeni s Excelem, Power BI a Office. Potřebují vytvořit datový produkt pro obchodní jednotku. Vědí, že nemají dost dovedností k vytvoření datového skladu nebo jezera, a ty se zdají být příliš moc pro své potřeby a objemy dat. Projdou si podrobnosti v předchozí tabulce a zjistí, že primární rozhodovací body jsou jejich vlastní dovednosti a že potřebují samoobslužnou službu, žádné schopnosti kódu a objem dat pod 100 GB.
Ash spolupracuje s obchodními analytiky, kteří jsou obeznámeni s Power BI a systém Microsoft Office, a ví, že už mají předplatné kapacity Premium. Vzhledem k tomu, že si myslí o svém větším týmu, si uvědomí, že primární spotřebitelé těchto dat mohou být analytici, kteří znají bez kódu a analytické nástroje SQL. Ash se rozhodne použít datový diagram Power BI, který týmu umožňuje rychle vytvářet možnosti pomocí prostředí bez kódu. Dotazy je možné spouštět prostřednictvím Power BI a T-SQL a zároveň umožnit všem uživatelům Sparku v organizaci přístup k datům.
Scénář 4
Daisy je obchodní analytik zkušený s využitím Power BI k analýze kritických bodů dodavatelského řetězce pro rozsáhlý globální maloobchodní řetězec. Potřebují vytvořit škálovatelné datové řešení, které dokáže zpracovávat miliardy řádků dat a lze je použít k vytváření řídicích panelů a sestav, které je možné použít k obchodním rozhodnutím. Data pocházejí z rostlin, dodavatelů, odesílatelů a dalších zdrojů v různých strukturovaných, částečně strukturovaných a nestrukturovaných formátech.
Daisy se rozhodne používat eventhouse kvůli škálovatelnosti, rychlé době odezvy, pokročilým analytickým možnostem, včetně analýzy časových řad, geoprostorových funkcí a rychlého režimu přímého dotazu v Power BI. Dotazy je možné spouštět pomocí Power BI a KQL k porovnání mezi aktuálními a předchozími obdobími, rychle identifikovat vznikající problémy nebo poskytovat geoprostorovou analýzu vnitrozemí a námořních tras.