Co je datové jezero?

Článek
08/15/2024

Data Lake je úložiště, které obsahuje velké množství dat v nativním nezpracovaném formátu. Úložiště Data Lake jsou optimalizovaná pro škálování jejich velikosti na terabajty a petabajty dat. Data obvykle pocházejí z více různých zdrojů a můžou zahrnovat strukturovaná, částečně strukturovaná nebo nestrukturovaná data. Datové jezero vám pomůže uložit všechno v původním, nepřeformulovaném stavu. Tato metoda se liší od tradičního datového skladu, který transformuje a zpracovává data v době příjmu dat.

Diagram znázorňující různé případy použití data lake

Mezi klíčové případy použití data lake patří:

Přesun dat v cloudu a internetu věcí (IoT).
Zpracování velkých objemů dat
Analýza.
Hlášení.
Přesun místních dat.

Zvažte následující výhody datového jezera:

Datové jezero nikdy neodstraní data, protože ukládá data v nezpracované podobě. Tato funkce je zvlášť užitečná v prostředí pro velké objemy dat, protože nemusíte předem vědět, jaké přehledy můžete z dat získat.
Uživatelé můžou zkoumat data a vytvářet vlastní dotazy.
Datové jezero může být rychlejší než tradiční nástroje pro extrakci, transformaci a načítání (ETL).
Datové jezero je flexibilnější než datový sklad, protože může ukládat nestrukturovaná a částečně strukturovaná data.

Kompletní řešení Data Lake se skládá z úložiště i zpracování. Služba Data Lake Storage je navržená pro odolnost proti chybám, neomezenou škálovatelnost a příjem dat s vysokou propustností různých tvarů a velikostí dat. Zpracování datového jezera zahrnuje jeden nebo více procesorů, které můžou tyto cíle začlenit a mohou pracovat s daty uloženými ve velkém datovém jezeře.

Kdy byste měli použít data lake

Doporučujeme použít datové jezero pro zkoumání dat, analýzu dat a strojové učení.

Datové jezero může fungovat jako zdroj dat datového skladu. Při použití této metody data lake ingestuje nezpracovaná data a pak je transformuje do strukturovaného dotazovatelného formátu. Tato transformace obvykle používá kanál extrakce, načítání, transformace (ELT), ve kterém se data ingestují a transformují. Relační zdrojová data můžou přejít přímo do datového skladu prostřednictvím procesu ETL a přeskočit datové jezero.

Úložiště Data Lake můžete použít ve scénářích streamování událostí nebo IoT, protože datová jezera můžou uchovávat velké objemy relačních a nerelačních dat bez transformace nebo definice schématu. Datová jezera můžou zpracovávat velké objemy malých zápisů s nízkou latencí a jsou optimalizovaná pro obrovskou propustnost.

Následující tabulka porovnává datová jezera a datové sklady.

Tabulka, která porovnává funkce data Lake s funkcemi datového skladu.

Výzvy

Velké objemy dat: Správa obrovských objemů nezpracovaných a nestrukturovaných dat může být složitá a náročná na prostředky, takže potřebujete robustní infrastrukturu a nástroje.
Potenciální kritické body: Zpracování dat může představovat zpoždění a nevýkonnost, zejména v případě, že máte velké objemy dat a různé datové typy.
Rizika poškození dat: Nesprávné ověření a monitorování dat představuje riziko poškození dat, které může ohrozit integritu datového jezera.
Problémy s kontrolou kvality: Správná kvalita dat je výzvou z důvodu různých zdrojů a formátů dat. Musíte implementovat přísné postupy zásad správného řízení dat.
Problémy s výkonem: Výkon dotazů může snížit při růstu datového jezera, takže je nutné optimalizovat strategie úložiště a zpracování.

Technologické volby

Při vytváření komplexního řešení Data Lake v Azure zvažte následující technologie:

Azure Data Lake Storage kombinuje Službu Azure Blob Storage s funkcemi data Lake, které poskytují přístup kompatibilní s Apache Hadoopem, možnosti hierarchického oboru názvů a vylepšené zabezpečení pro efektivní analýzu velkých objemů dat.
Azure Databricks je jednotná platforma, pomocí které můžete zpracovávat, ukládat, analyzovat a zpeněžit data. Podporuje procesy ETL, řídicí panely, zabezpečení, zkoumání dat, strojové učení a generování umělé inteligence.
Azure Synapse Analytics je jednotná služba, pomocí které můžete ingestovat, zkoumat, připravovat, spravovat a obsluhovat data pro okamžité potřeby business intelligence a strojového učení. Integruje se hlouběji s datovými jezery Azure, abyste mohli efektivně dotazovat a analyzovat velké datové sady.
Azure Data Factory je cloudová služba pro integraci dat, kterou můžete použít k vytváření pracovních postupů řízených daty k orchestraci a automatizaci přesunu a transformace dat.
Microsoft Fabric je komplexní datová platforma, která sjednocuje datové inženýrství, datové vědy, datové sklady, analýzy v reálném čase a business intelligence do jednoho řešení.

Přispěvatelé

Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.

Hlavní autor:

Avijit Prasad | Cloud Consultant

Pokud chcete zobrazit neveřejné profily LinkedIn, přihlaste se na LinkedIn.

Sdílet prostřednictvím

Co je datové jezero?

Kdy byste měli použít data lake

Výzvy

Technologické volby

Přispěvatelé

Další kroky

Váš názor

Další materiály

Sdílet prostřednictvím

Co je datové jezero?

Kdy byste měli použít data lake

Výzvy

Technologické volby

Přispěvatelé

Další kroky

Související prostředky

Váš názor

Další materiály