Přehled služby Azure Data Lake Storage pro analýzy v cloudovém měřítku
Azure Data Lake je široce škálovatelné a zabezpečené úložiště dat pro vysoce výkonné analytické úlohy. Účty úložiště můžete vytvořit v rámci jedné skupiny prostředků pro analýzy v cloudovém měřítku. Doporučujeme zřídit tři účty Azure Data Lake Storage Gen2 v rámci jedné skupiny prostředků podobné storage-rg
skupině prostředků popsané v článku s přehledem cílové zóny dat v architektuře cloudových analýz.
Každý účet úložiště v cílové zóně dat ukládá data v jedné ze tří fází, které odpovídají architektuře medailonu:
- Nezpracovaná data (bronzová)
- Obohacená (stříbrná) a kurátorovaná data (zlato)
- Vývojová datová jezera
Datová aplikace může využívat rozšířená a kurátorovaná data z účtu úložiště, který se ingestoval službou automatizovaného příjmu dat. Zdrojovou aplikaci zarovnanou datovou aplikaci můžete vytvořit, pokud neimplementujete modul nezávislé na datech nebo usnadňujete složitá připojení pro ingestování dat z provozních zdrojů. Tato datová aplikace se řídí stejným tokem jako modul nezávislý na datech při ingestování dat z externích zdrojů dat.
Data Lake Storage Gen2 podporuje jemně odstupňované seznamy řízení přístupu (ACL), které chrání data na úrovni souborů a složek. Seznamy řízení přístupu můžou vaší organizaci pomoct implementovat úzká bezpečnostní opatření pro ověřování a autorizaci datových produktů tak, aby:
- Bezpečně ukládejte data prostřednictvím šifrování neaktivních uložených dat.
- Řízení přístupu pro uživatele a skupiny zabezpečení Microsoft Entra prostřednictvím integrace Microsoft Entra.
Plánování Data Lake
Při plánování datového jezera vždy zvažte vhodné aspekty struktury, zásad správného řízení a zabezpečení. Struktura a organizace datového jezera ovlivňují více faktorů:
- Typ uložených dat
- Způsob transformace dat
- Kdo přistupuje k datům
- Jaké jsou typické vzory přístupu
Seskupte spotřebitele a producenty na základě potřeb jejich přístupu k datům. Je vhodné naplánovat implementaci a řízení přístupu v datovém jezeře.
Pokud vaše datové jezero obsahuje několik datových prostředků a automatizovaných procesů, jako je extrakce, transformace, snižování zátěže (ETL), je pravděpodobné, že plánování bude poměrně snadné. Pokud vaše datové jezero obsahuje stovky datových prostředků a zahrnuje automatizovanou a ruční interakci, počítejte s tím, že strávíte delší dobu plánováním, protože od vlastníků dat potřebujete mnohem větší spolupráci.
Analogie s bažinami dat
Datové bažiny jsou nespravované datové jezero, které je téměř nepřístupné uživatelům. K datovým bažinám dochází v případě, že neimplementujete míry kvality dat a zásad správného řízení dat. V datovém skladu s existujícími hybridními modely se někdy může zobrazit datový bažina.
Správné zásady správného řízení a organizace brání přeplavům dat. Když vytvoříte solidní základ pro vaše datové jezero, zvýší se šance na trvalou úspěšnost data lake a obchodní hodnotu.
S rostoucí velikostí, složitostí, počtem datových prostředků a počtem uživatelů nebo oddělení vašeho datového jezera je stále důležitější mít robustní systém katalogu dat. Systém katalogu dat zajišťuje, aby uživatelé mohli najít, označit a klasifikovat data během zpracování, využívání a řízení datového jezera.
Další informace najdete v přehledu zásad správného řízení dat.
Účty úložiště v logickém datovém jezeře
Zvažte, jestli vaše organizace potřebuje jeden nebo více účtů úložiště, a zvažte, jaké systémy souborů potřebujete k vytvoření logického datového jezera. Jedna technologie úložiště poskytuje více metod přístupu k datům a pomáhá standardizovat napříč vaší organizací.
Data Lake Storage Gen2 je plně spravovaná platforma jako služba (PaaS). U několika účtů úložiště nebo systémů souborů se neúčtují peněžní náklady, dokud se k datům nepřistupuje nebo neuloží. Každý prostředek Azure má administrativní a provozní režii při zřizování, zabezpečení a zásadách správného řízení, včetně zálohování a zotavení po havárii.
Poznámka:
V každé cílové zóně dat jsou znázorněna tři datová jezera. V závislosti na vašich požadavcích ale můžete být schopni konsolidovat nezpracované, rozšířené a kurátorované vrstvy do jednoho účtu úložiště. Můžete vytvořit další účet úložiště s názvem "vývoj", kde spotřebitelé dat mohou přinést další užitečné datové produkty.
Při rozhodování mezi konsolidovanou nebo třem přístupem účtu úložiště zvažte následující faktory:
- Izolace datových prostředí a předvídatelnost
- Aktivity, které běží v nezpracovaných a vývojových zónách, můžete izolovat, abyste se vyhnuli potenciálnímu vlivu na kurátorované zóny, která obsahuje data s velkou obchodní hodnotou potřebnou pro důležité rozhodování.
- Funkce a funkce na úrovni účtu úložiště
- Můžete zvolit, jestli se musí použít možnosti správy životního cyklu nebo pravidla brány firewall na úrovni cílové zóny dat nebo datového jezera.
- Vytvořte více účtů úložiště, ale ne nežádoucí sila.
- Vyhněte se duplicitním datovým projektům z důvodu nedostatku viditelnosti nebo sdílení znalostí ve vaší organizaci.
- Ujistěte se, že máte správné zásady správného řízení dat, nástroje pro sledování projektů a katalog dat.
- Interakce nástrojů a technologií pro zpracování dat s daty napříč několika jezery na základě nakonfigurovaných oprávnění
- Regionální versus globální jezera
- Globálně distribuované uživatele nebo procesy v jezeře jsou citlivé na latenci způsobené geografickými vzdálenostmi.
- Místní ukládání dat je dobrým postupem.
- Regulační omezení a suverenita dat mohou vyžadovat, aby data zůstala v určité oblasti.
- Další informace najdete v tématu nasazení ve více oblastech.
Nasazení do více oblastí
Při diktování pravidly rezidence dat nebo požadavkem na zachování dat v blízkosti uživatelské základny možná budete muset vytvořit účty Azure Data Lake ve více oblastech Azure. Potřebujete vytvořit cílovou zónu dat v jedné oblasti a pak replikovat globální data pomocí AzCopy, Azure Data Factory nebo partnerských produktů. Místní data se nacházejí v oblasti, zatímco globální data se replikují do více oblastí.