Analytické datové produkty v cloudovém měřítku v Azure
Datové produkty jsou data obsluhovaná jako produkt a vypočítaná, uložená a obsluhovaná službami polyglotní trvalosti, které mohou být vyžadovány určitými případy použití. Proces vytváření a obsluhy datového produktu může vyžadovat služby a technologie, které nejsou zahrnuty do základních služeb cílové zóny dat. Příkladem by bylo hlášení s požadavky na výklenku, jako je dodržování předpisů a daňové hlášení.
Aspekty návrhu
Cílové zóně dat lze obsluhovat více datových produktů vytvořených ingestováním dat ze stejné cílové zóny dat nebo napříč několika cílovými zónami dat. Toto je znázorněno v následujícím diagramu.
Výše uvedený příklad ukazuje:
- Spotřeba dat uvnitř pásma:
- Datový produkt B využívá data z datového produktu A a dalších dat nebo datových produktů existujících v datovém jezeře ve vlastní cílové zóně.
- Datové produkty C a D využívají data pouze z jejich vlastních cílových zón dat.
- Spotřeba dat mezi pásmy:
- Datový produkt B také využívá data z datového produktu C a dat v datovém jezeře cílové zóny 3.
Důležité
V případě spotřeby mezizonetových dat, protože datový produkt B je vytvořen čtením z cílové zóny dat 3, tento přístup pro čtení vyžaduje schválení od operací cílové zóny dat a týmů operací integrace cílové zóny dat 3.
Důležité
Datový produkt B využívá data z datových produktů A a C. Než k tomu dojde, musí datový produkt B zaregistrovat spotřebu datových produktů prostřednictvím smluv o sdílení dat. Tato smlouva o sdílení dat by měla aktualizovat rodokmen z datového produktu A na datový produkt B a z datového produktu C do datového produktu B.
Skupina prostředků pro datový produkt zahrnuje všechny služby potřebné k jeho vytvoření a údržbě. Tuto skupinu prostředků můžeme volat jako datovou aplikaci. Mezi příklady služeb, které můžou být součástí datové aplikace, patří Azure Functions, Aplikace Azure Service, Logic Apps, Azure Analysis Services, Azure Cognitive Services, Azure Machine Učení, Azure SQL Database, Azure Database for MySQL a Azure Cosmos DB. Další informace najdete v ukázkách datových aplikací.
Datové produkty mají data ze zdrojů dat READ , u kterých byla použita transformace dat. Příkladem může být nově kurátorovaná datová sada nebo sestava BI.
Doporučení k návrhu
Vytvářejte datové produkty v cílové zóně dat tím, že dodržujete principy návrhu, které vám umožní škálovat se zásadami správného řízení dat. Následující části obsahují doporučení k návrhu, která vám pomůžou při plánování ekosystému datových aplikací.
Nasazení několika skupin prostředků
Každá datová aplikace je skupina prostředků. Vzhledem k tomu, že datové aplikace jsou výpočetní služby, polyglotní služby trvalosti nebo obojí, můžou být vyžadovány pouze v závislosti na určitých případech použití. Proto se považují za volitelnou komponentu cílové zóny dat. V případě, že potřebujete datové aplikace, vytvořte podle datové aplikace více skupin prostředků, jak ukazuje následující diagram.
Nastavení mantinely
Azure Policy řídí výchozí konfiguraci služeb v cílové zóně dat. Provozní analýzy si můžete představit jako několik skupin prostředků, které si váš datový produktový tým může vyžádat ze standardního katalogu služeb. Pomocí služby Azure Policy můžete nakonfigurovat hranici zabezpečení a požadovanou sadu funkcí.
Důležité
Pokud chcete řídit konzistenci, nakonfigurujte jednu službu Azure Policy pro každou datovou aplikaci.
Využívání dat z více míst
Datové aplikace spravují, uspořádají a získají představu o datech z více datových prostředků a zobrazí všechny získané přehledy. Datový produkt je výsledkem dat z jedné nebo mnoha datových aplikací v rámci cílových zón dat. V případě potřeby povolte datovým aplikacím přístup k datům z více a různých zdrojů.
Škálování podle potřeby
Služby, které tvoří datové aplikace, jsou přírůstková nasazení do cílové zóny dat. Podle potřeby škálujte datové aplikace.
Povolení zjišťování dat
Automatické registrace datových produktů v katalogu dat, jako je Azure Purview , aby bylo možné skenovat data.
Identifikace datových produktů
Při plánování cílové zóny dat identifikujte podle potřeby tolik datových produktů (a datových aplikací, které je vypíše a udržují), aby bylo možné řídit architekturu aplikace datového produktu. Při rozhodování by měla hrát největší roli shoda s implementovanými zásadami správného řízení platforem.
Zaměřte se na to, jak jsou datové aplikace producenty a spotřebiteli dat pro ostatní. Předpokládejme například, že jste identifikovali sadu datových produktů (A, B, C a D), které se vytvářejí a spotřebovávají. Potřebujete datové produkty A a D jako zdroje dat v aplikaci Data B pro datový produkt B. Datový produkt B se vytvoří z dat, která aplikace Dat B využívá z datových produktů A a D. Aplikace dat B funguje jako samotný výrobce dat a také vytváří data pro datový produkt C.
Řízení prostředí datové aplikace pomocí infrastruktury jako kódu
Zásady správného řízení a infrastruktura jako kód by měly řídit prostředí datových aplikací v ekosystému datových produktů, jak je znázorněno v předchozím diagramu.
Publikování datových modelů
Týmy datových produktů by měly publikovat své datové modely v úložišti modelování.
Nastavení očekávání pro uživatele datového produktu
Aktualizujte kontrakty sdílení dat o smlouvách o úrovni služeb a certifikací pro vaše datové produkty, abyste mohli vyjádřit přesná očekávání potenciálním uživatelům datového produktu.
Zachytávání rodokmenu
Pokud je produkt B vytvořen z dat pocházejících z datových produktů A a D, musí být rodokmen zachycen z A a D do B. Další rodokmen by měl být zaznamenán také pro datový produkt C, protože je vytvořen pomocí dat z datového produktu B. Aktualizovaný rodokmen by se měl zachytit v aplikaci rodokmenu dat před každým vydáním datového produktu.
Poznámka:
Pomocí Azure Pipelines můžete vytvářet schvalovací brány a volat funkce, které zajišťují, aby metadata, rodokmen a smlouvy SLA byly zaregistrované ve správné službě zásad správného řízení.
Definování architektury datových aplikací
Musíte vytvořit podrobnou architekturu pro každý datový produkt, který plně definuje jeho vztah k jiným datovým produktům, jeho závislostem a požadavkům na přístup.
Ukázkový scénář návrhu
Pokud chcete porozumět procesu definice architektury, prozkoumejte následující příklad finanční instituce a jejího produktu pro monitorování úvěru.
Produkt dat monitorování kreditů zobrazený v tomto diagramu využívá data z úložiště dat pro čtení, které ingestoval provozní tým integrace. Vytváří také datové produkty spotřebované dvěma dalšími datovými produkty.
Poznámka:
Zdroj dat nebo úložiště pro čtení se také označuje jako zlatý zdroj záznamů. Tyto zdroje dat byly vyčištěny, ale neměly na ně žádné transformace.
Produktový tým pro monitorování kreditů žádá o přístup pro čtení úložišť dat, která potřebují k vytvoření datového produktu. Jejich žádosti se směrují vlastníkům dat ke schválení. Jakmile obdrží schválení, může produktový tým začít vytvářet datová aplikace.
Data ze zdroje dat pro čtení se transformují na produkty dat monitorování kreditů. Všechny nové datové produkty se ukládají ve kurátorované vrstvě data lake. Tyto nové datové produkty a nová rodokmen dat by se měly zaregistrovat jako součást procesu nasazení DevOps. Funkce může kontrolovat registrovaná metadata s fyzickou strukturou datového prostředku. Měla by zaregistrovat závislost na datových prostředcích a datových produktech pro čtení zdroje dat.
Produktový tým pro schválení úvěru má závislost na některých datových produktech monitorování úvěru. Tým pro schválení půjčky může požádat o přístup pro čtení k datovým produktům monitorování úvěru, které vyžadují pro své datové produkty. Jakmile uvolní svůj datový produkt schválení úvěru a její datovou aplikaci, všechny datové prostředky, rodokmen a modely by se měly zaregistrovat v příslušných službách zásad správného řízení.
Ukázkové datové aplikace
Následující části obsahují ukázkové datové aplikace pro další ilustraci scénářů datových aplikací.
Datová analýza a datová aplikace pro datové vědy
Aplikace pro analýzu dat a datové vědy může obsahovat služby zobrazené v ukázkové datové aplikaci product-analytics-rg
.
Poznámka:
Předchozí datovou aplikaci můžete použít jako šablonu. Tato šablona nasadí sadu služeb, které můžete použít pro analýzu dat a datové vědy. Tuto šablonu aplikace produktu pro data můžete použít k rychlému vytváření prostředí pro týmy napříč funkcemi. Musíte explicitně zakázat všechny služby, které nepotřebujete.
Šablona Analýzy datového produktu obsahuje všechny šablony pro nasazení datového produktu pro analýzy a datové vědy v cílové zóně analýzy v cloudovém měřítku.
Artefakty nasazení a kódu zahrnují následující služby:
- Machine Learning
- Key Vault
- Application Insights
- Úložiště
- Container Registry
- Cognitive Services (volitelné)
- Data Factory (výběr mezi službou Data Factory a Synapse)
- Pracovní prostor Synapse (výběr mezi službou Data Factory a Synapse)
- Azure Search (volitelné)
- Fond SQL (volitelné)
- Fond BigData (volitelné)
Dávková datová aplikace
Šablona aplikace Batch Data Obsahuje všechny šablony pro nasazení datového produktu pro dávkové zpracování dat v cílové zóně pro analýzu v cloudovém měřítku.
Artefakty nasazení a kódu zahrnují následující služby:
- Key Vault
- Data Factory (výběr mezi službou Data Factory a Synapse)
- Azure Cosmos DB (volitelné)
- Pracovní prostor Synapse (výběr mezi službou Data Factory a Synapse)
- Databáze MySQL (volitelné)
- Azure SQL Database (volitelné)
- Databáze PostgreSQL (volitelné)
- Databáze MariaDB (volitelné)
- Fond SQL (volitelné)
- SQL Server (volitelné)
- Elastický fond SQL (volitelné)
- Fond BigData
Streamovaná datová aplikace
Šablona aplikace streamovaných dat obsahuje všechny šablony pro nasazení datového produktu pro zpracování dat v reálném čase v cílové zóně pro analýzu dat v cloudovém měřítku.
Artefakty nasazení a kódu zahrnují následující služby:
- Key Vault
- Event Hubs
- IoT Hub
- Stream Analytics (volitelné)
- Azure Cosmos DB (volitelné)
- Pracovní prostor Synapse
- Azure SQL Database (volitelné)
- Fond SQL (volitelné)
- SQL Server (volitelné)
- Elastický fond SQL (volitelné)
- Fond BigData
- Průzkumník dat (volitelné)
Pokud chcete najít úložiště obsahující dříve uvedené šablony nasazení, projděte si šablony nasazení pro analýzy v cloudovém měřítku.