Nápady na řešení
Tento článek popisuje myšlenku řešení. Váš cloudový architekt může pomocí těchto pokynů vizualizovat hlavní komponenty pro typickou implementaci této architektury. Tento článek slouží jako výchozí bod k návrhu dobře navrženého řešení, které odpovídá konkrétním požadavkům vaší úlohy.
Toto řešení popisuje klíčové principy a komponenty moderních datových architektur. Azure Databricks tvoří jádro řešení. Tato platforma bez problémů spolupracuje s dalšími službami, jako jsou Azure Data Lake Storage, Microsoft Fabric a Power BI.
Apache® a Apache Spark™ jsou registrované ochranné známky nebo ochranné známky Apache Software Foundation v USA a/nebo v jiných zemích. Použití těchto značek nevyžaduje žádné doporučení Apache Software Foundation.
Architektura
Stáhněte si soubor aplikace Visio s touto architekturou.
Tok dat
Azure Databricks ingestuje nezpracovaná streamovaná data ze služby Azure Event Hubs pomocí dynamických tabulek Delta.
Služba Fabric Data Factory načítá nezpracovaná dávková data do Data Lake Storage.
Úložiště dat:
Data Lake Storage obsahuje všechny typy dat, včetně strukturovaných, nestrukturovaných a částečně strukturovaných dat. Ukládá také dávková a streamovaná data.
Delta Lake tvoří kurátorované vrstvy datového jezera. Uloží zpřesněná data v opensourcovém formátu.
Azure Databricks dobře funguje s architekturou medallionu, která uspořádá data do vrstev:
- Bronzová vrstva: Uchovává nezpracovaná data.
- Stříbrná vrstva: Obsahuje vyčištěná a filtrovaná data.
- Zlatá vrstva: Ukládá agregovaná data, která jsou užitečná pro obchodní analýzy.
Analytická platforma ingestuje data z různorodých dávkových a streamovacích zdrojů. Datoví vědci používají tato data pro úlohy, jako jsou:
- Příprava dat.
- Zkoumání dat
- Příprava modelu
- Trénování modelu
MLflow spravuje spouštění parametrů, metrik a sledování modelů v kódu datových věd. Možnosti kódování jsou flexibilní:
- Kód může být v JAZYCE SQL, Python, R a Scala.
- Kód může používat oblíbené opensourcové knihovny a architektury, jako jsou Koalas, Pandas a scikit-learn, které jsou předinstalované a optimalizované.
- Uživatelé můžou optimalizovat výkon a náklady pomocí výpočetních možností s jedním uzlem a několika uzly.
Modely strojového učení jsou k dispozici v následujících formátech:
- Azure Databricks ukládá informace o modelech v registru modelů MLflow. Registr zpřístupňuje modely prostřednictvím dávkových, streamovaných a rozhraní REST API.
- Řešení může také nasadit modely do webových služeb Azure Machine Learning nebo do služby Azure Kubernetes Service (AKS).
Služby, které pracují s daty, se připojují k jednomu podkladovému zdroji dat, aby se zajistila konzistence. Můžete například spouštět dotazy SQL na datové jezero pomocí služby Azure Databricks SQL Warehouse. Tato služba:
- Poskytuje editor dotazů a katalog, historii dotazů, základní řídicí panel a upozorňování.
- Používá integrované zabezpečení, které zahrnuje oprávnění na úrovni řádků a oprávnění na úrovni sloupců.
- Používá Photon-powered Delta Engine ke zlepšení výkonu.
Zlaté datové sady můžete zrcadlit z katalogu Azure Databricks Unity do prostředků infrastruktury. Použití zrcadlení Azure Databricks v prostředcích infrastruktury k snadné integraci bez nutnosti přesunu nebo replikace dat.
Power BI generuje analytické a historické sestavy a řídicí panely z sjednocené datové platformy. Tato služba používá při práci s Azure Databricks následující funkce:
- Integrovaný konektor Azure Databricks pro vizualizaci podkladových dat
- Optimalizované připojení databáze Java a ovladače open Database Connectivity
- Pomocí Direct Lake s zrcadlení Azure Databricks v prostředcích infrastruktury můžete načíst sémantické modely Power BI pro dotazy s vyšším výkonem.
Řešení využívá služby Unity Catalog a Azure ke spolupráci, výkonu, spolehlivosti, zásadám správného řízení a zabezpečení:
Azure Databricks Unity Catalog poskytuje centralizované řízení přístupu, auditování, rodokmen a možnosti zjišťování dat v pracovních prostorech Azure Databricks.
Microsoft Purview poskytuje služby zjišťování dat, klasifikaci citlivých dat a přehledy zásad správného řízení napříč datovými aktivy.
Azure DevOps nabízí kontinuální integraci a průběžné nasazování (CI/CD) a další integrované funkce správy verzí.
Azure Key Vault pomáhá bezpečně spravovat tajné kódy, klíče a certifikáty.
Zřizování Microsoft Entra ID a systému pro správu identit mezi doménami (SCIM) poskytují uživatelům a skupinám Azure Databricks jednotné přihlašování. Azure Databricks podporuje automatizované zřizování uživatelů s ID Microsoft Entra pro:
- Vytvořte nové uživatele a skupiny.
- Přiřaďte každému uživateli úroveň přístupu.
- Odeberte uživatele a odepřete jim přístup.
Azure Monitor shromažďuje a analyzuje telemetrii prostředků Azure. Díky proaktivní identifikaci problémů tato služba maximalizuje výkon a spolehlivost.
Microsoft Cost Management poskytuje služby finančního řízení pro úlohy Azure.
Komponenty
Toto řešení používá následující komponenty.
Základní součásti
Azure Databricks je platforma pro analýzu dat, která ke zpracování velkých datových proudů používá clustery Spark. Vyčistí a transformuje nestrukturovaná data a kombinuje je se strukturovanými daty. Může také trénovat a nasazovat modely strojového učení. V této architektuře slouží Azure Databricks jako centrální nástroj pro příjem, zpracování a obsluhu dat. Poskytuje jednotné prostředí pro správu celého životního cyklu dat.
azure Databricks SQL Warehouses jsou výpočetní prostředky, které můžete použít k dotazování a prozkoumání dat v Azure Databricks. V této architektuře se můžete pomocí koncových bodů SQL připojit přímo k datům z Power BI.
azure Databricks Delta Live Tables je deklarativní architektura pro vytváření spolehlivých, udržovatelných a testovatelných kanálů zpracování dat. V této architektuře vám Delta Live Tables pomůže definovat transformace, které se mají s daty provádět. Pomáhá také spravovat orchestraci úloh, správu clusteru, monitorování, kvalitu dat a zpracování chyb v Rámci Azure Databricks.
Microsoft Fabric je komplexní analytická a datová platforma pro organizace, které potřebují jednotné řešení. Platforma poskytuje služby, jako jsou Datové inženýrství, Data Factory, Datové vědy, Real-Time Intelligence, Datový sklad a databáze. Tato architektura zrcadlí tabulky katalogu Unity do prostředků infrastruktury a používá Direct Lake v Power BI k lepšímu výkonu.
Data Factory v Microsoft Fabric je moderní platforma pro integraci dat, kterou můžete použít k ingestování, přípravě a transformaci dat z bohaté sady zdrojů dat v Prostředcích infrastruktury. Tato architektura využívá integrované konektory k několika zdrojům dat pro rychlý příjem dat do Data Lake Storage nebo OneLake. Azure Databricks později načte a dále transformuje dávková data.
služba Event Hubs je plně spravovaná platforma pro streamování velkých objemů dat. Jako platforma jako služba poskytuje možnosti příjmu událostí. Tato architektura používá službu Event Hubs ke streamování dat. Azure Databricks se může k tomuto datu připojit a zpracovat je pomocí streamování Sparku nebo delta živých tabulek.
Data Lake Storage je škálovatelné a zabezpečené datové jezero pro vysoce výkonné analýzy. Zpracovává více petabajtů dat a podporuje stovky gigabitů propustnosti. Data Lake Storage může ukládat strukturovaná, částečně strukturovaná a nestrukturovaná data. Tato architektura používá Data Lake Storage k ukládání dávkových i streamovaných dat.
Machine Learning je cloudové prostředí, které pomáhá sestavovat, nasazovat a spravovat řešení prediktivní analýzy. Pomocí těchto modelů můžete předpovídat chování, výsledky a trendy. V této architektuře Machine Learning používá data, která Azure Databricks transformuje pro trénování a odvozování modelů.
AKS je vysoce dostupná, zabezpečená a plně spravovaná služba Kubernetes. AKS usnadňuje nasazování a správu kontejnerizovaných aplikací. V této architektuře AKS hostuje modely strojového učení v kontejnerizovaném prostředí pro škálovatelné odvozování.
Delta Lake je vrstva úložiště, která používá otevřený formát souboru. Tato vrstva běží nad řešeními cloudového úložiště, jako je Data Lake Storage. Delta Lake podporuje správu verzí dat, vrácení zpět a transakce pro aktualizaci, odstraňování a slučování dat. V této architektuře Delta Lake funguje jako primární formát souborů pro zápis a čtení dat ze služby Data Lake Storage.
MLflow je opensourcová platforma pro správu životního cyklu strojového učení. Její komponenty monitorují modely strojového učení během trénování a provozu. V této architektuře, podobně jako ve službě Machine Learning, můžete ke správě životního cyklu strojového učení použít MLflow v Azure Databricks. Trénování a odvozování modelů pomocí dat katalogu Unity, která jste transformovali v Rámci Azure Databricks.
Vytváření sestav a řízení součástí
azure Databricks Unity Catalog poskytuje centralizované řízení přístupu, auditování, rodokmen a možnosti zjišťování dat v pracovních prostorech Azure Databricks. V této architektuře funguje Katalog Unity jako primární nástroj v Rámci Azure Databricks ke správě a zabezpečení přístupu k datům.
Power BI je kolekce softwarových služeb a aplikací. Tyto služby vytvářejí a sdílejí sestavy, které propojují a vizualizují nesouvisející zdroje dat. Společně s Azure Databricks může Power BI poskytovat základní příčinu stanovení a nezpracovanou analýzu dat. Tato architektura používá Power BI k vytváření řídicích panelů a sestav, které poskytují přehled o datech, která Azure Databricks a Prostředky infrastruktury zpracovávají.
Microsoft Purview spravuje místní, multicloudová a softwarová data jako služba (SaaS). Tato služba zásad správného řízení udržuje mapy na šířku dat. Mezi její funkce patří automatizované zjišťování dat, klasifikace citlivých dat a rodokmen dat. Tato architektura používá Microsoft Purview ke skenování a sledování dat přijatých v katalogu Unity, Prostředcích infrastruktury, Power BI a Data Lake Storage.
Azure DevOps je platforma pro orchestraci DevOps. Toto SaaS poskytuje nástroje a prostředí pro sestavování, nasazování a spolupráci na aplikacích. Tato architektura využívá Azure DevOps k automatizaci nasazení infrastruktury Azure. GitHub můžete také použít k automatizaci a správě verzí kódu Azure Databricks pro lepší spolupráci, sledování změn a integraci s kanály CI/CD.
Key Vault ukládá a řídí přístup k tajným kódům, jako jsou tokeny, hesla a klíče rozhraní API. Key Vault také vytváří a řídí šifrovací klíče a spravuje certifikáty zabezpečení. Tato architektura používá službu Key Vault k ukládání sdílených přístupových podpisových klíčů ze služby Data Lake Storage. Tyto klíče se pak použijí v Azure Databricks a dalších službách k ověřování.
Microsoft Entra ID nabízí cloudové služby pro správu identit a přístupu. Tyto funkce poskytují uživatelům způsob přihlášení a přístupu k prostředkům. Tato architektura používá k ověřování a autorizaci uživatelů a služeb v Azure ID Microsoft Entra.
SCIM umožňuje nastavit zřizování účtu Azure Databricks pomocí Microsoft Entra ID. Tato architektura používá SCIM ke správě uživatelů, kteří přistupují k pracovním prostorům Azure Databricks.
Azure Monitor shromažďuje a analyzuje data v prostředích a prostředcích Azure. Tato data zahrnují telemetrii aplikací, jako jsou metriky výkonu a protokoly aktivit. Tato architektura využívá Azure Monitor ke sledování stavu výpočetních prostředků ve službě Azure Databricks a Machine Learning a dalších komponentách, které odesílají protokoly do služby Azure Monitor.
Cost Management pomáhá spravovat útratu v cloudu. Pomocí rozpočtů a doporučení tato služba organizuje výdaje a ukazuje, jak snížit náklady. Tato architektura využívá službu Cost Management k monitorování a řízení nákladů na celé řešení.
Podrobnosti scénáře
Moderní architektury dat:
- Sjednocení dat, analýz a úloh umělé inteligence
- Spouštět efektivně a spolehlivě v libovolném měřítku.
- Poskytuje přehledy prostřednictvím analytických řídicích panelů, provozních sestav nebo pokročilých analýz.
Toto řešení popisuje moderní architekturu dat, která tyto cíle dosahuje. Azure Databricks tvoří jádro řešení. Tato platforma bez problémů spolupracuje s dalšími službami. Tyto služby společně poskytují řešení, které je:
- Jednoduché: Sjednocená analýza, datové vědy a strojové učení zjednodušují architekturu dat.
- Open: Řešení podporuje opensourcový kód, otevřené standardy a otevřené architektury. Funguje také s oblíbenými integrovanými vývojovými prostředími (IDE), knihovnami a programovacími jazyky. Prostřednictvím nativních konektorů a rozhraní API řešení funguje také s širokou škálou dalších služeb.
- Spolupráce: Datoví inženýři, datoví vědci a analytici spolupracují s tímto řešením. Můžou používat poznámkové bloky pro spolupráci, prostředí IDE, řídicí panely a další nástroje pro přístup k běžným podkladovým datům a jejich analýzu.
Potenciální případy použití
Systém, který Swiss Re Group vytvořil pro své oddělení nemovitostí a neformálního zajištění, toto řešení inspirovalo. Kromě pojišťovacího průmyslu může toto řešení využívat i jakákoli oblast, která pracuje s velkými objemy dat nebo strojové učení. Příkladem může být:
- Odvětví energetiky.
- Maloobchod a elektronické obchodování.
- Bankovnictví a finance.
- Lékařství a zdravotnictví.
Další kroky
- Vytvoření kompletního datového kanálu v Azure Databricks
- spuštění prvního kanálu dynamických tabulek Delta
Související prostředky
Další informace o souvisejících řešeních najdete v následujících příručkách a architekturách.
Související průvodci architekturou
- Monitorování Azure Databricks pomocí služby Azure Monitor
- Porovnání produktů strojového učení od Microsoftu
- Volba technologie zpracování přirozeného jazyka
- Volba technologie zpracování datových proudů