Analytické datové produkty v cloudovém měřítku v Azure

Datové produkty jsou data obsluhovaná jako produkt a vypočítaná, uložená a obsluhovaná službami polyglotní trvalosti, které mohou být vyžadovány určitými případy použití. Proces vytváření a obsluhy datového produktu může vyžadovat služby a technologie, které nejsou zahrnuty do základních služeb cílové zóny dat. Příkladem by bylo hlášení s požadavky na výklenku, jako je dodržování předpisů a daňové hlášení.

Aspekty návrhu

Cílové zóně dat lze obsluhovat více datových produktů vytvořených ingestováním dat ze stejné cílové zóny dat nebo napříč několika cílovými zónami dat. Toto je znázorněno v následujícím diagramu.

Diagram spotřeby cílové zóny napříč daty

Výše uvedený příklad ukazuje:

  • Spotřeba dat uvnitř pásma:
    • Datový produkt B využívá data z datového produktu A a dalších dat nebo datových produktů existujících v datovém jezeře ve vlastní cílové zóně.
    • Datové produkty C a D využívají data pouze z jejich vlastních cílových zón dat.
  • Spotřeba dat mezi pásmy:
    • Datový produkt B také využívá data z datového produktu C a dat v datovém jezeře cílové zóny 3.

Důležité

V případě spotřeby mezizonetových dat, protože datový produkt B je vytvořen čtením z cílové zóny dat 3, tento přístup pro čtení vyžaduje schválení od operací cílové zóny dat a týmů operací integrace cílové zóny dat 3.

Důležité

Datový produkt B využívá data z datových produktů A a C. Než k tomu dojde, musí datový produkt B zaregistrovat spotřebu datových produktů prostřednictvím smluv o sdílení dat. Tato smlouva o sdílení dat by měla aktualizovat rodokmen z datového produktu A na datový produkt B a z datového produktu C do datového produktu B.

Skupina prostředků pro datový produkt zahrnuje všechny služby potřebné k jeho vytvoření a údržbě. Tuto skupinu prostředků můžeme volat jako datovou aplikaci. Mezi příklady služeb, které můžou být součástí datové aplikace, patří Azure Functions, Aplikace Azure Service, Logic Apps, Azure Analysis Services, Azure Cognitive Services, Azure Machine Učení, Azure SQL Database, Azure Database for MySQL a Azure Cosmos DB. Další informace najdete v ukázkách datových aplikací.

Datové produkty mají data ze zdrojů dat READ , u kterých byla použita transformace dat. Příkladem může být nově kurátorovaná datová sada nebo sestava BI.

Doporučení k návrhu

Vytvářejte datové produkty v cílové zóně dat tím, že dodržujete principy návrhu, které vám umožní škálovat se zásadami správného řízení dat. Následující části obsahují doporučení k návrhu, která vám pomůžou při plánování ekosystému datových aplikací.

Nasazení několika skupin prostředků

Každá datová aplikace je skupina prostředků. Vzhledem k tomu, že datové aplikace jsou výpočetní služby, polyglotní služby trvalosti nebo obojí, můžou být vyžadovány pouze v závislosti na určitých případech použití. Proto se považují za volitelnou komponentu cílové zóny dat. V případě, že potřebujete datové aplikace, vytvořte podle datové aplikace více skupin prostředků, jak ukazuje následující diagram.

Diagram skupin prostředků datové aplikace

Nastavení mantinely

Azure Policy řídí výchozí konfiguraci služeb v cílové zóně dat. Provozní analýzy si můžete představit jako několik skupin prostředků, které si váš datový produktový tým může vyžádat ze standardního katalogu služeb. Pomocí služby Azure Policy můžete nakonfigurovat hranici zabezpečení a požadovanou sadu funkcí.

Důležité

Pokud chcete řídit konzistenci, nakonfigurujte jednu službu Azure Policy pro každou datovou aplikaci.

Využívání dat z více míst

Datové aplikace spravují, uspořádají a získají představu o datech z více datových prostředků a zobrazí všechny získané přehledy. Datový produkt je výsledkem dat z jedné nebo mnoha datových aplikací v rámci cílových zón dat. V případě potřeby povolte datovým aplikacím přístup k datům z více a různých zdrojů.

Škálování podle potřeby

Služby, které tvoří datové aplikace, jsou přírůstková nasazení do cílové zóny dat. Podle potřeby škálujte datové aplikace.

Povolení zjišťování dat

Automatické registrace datových produktů v katalogu dat, jako je Azure Purview , aby bylo možné skenovat data.

Identifikace datových produktů

Při plánování cílové zóny dat identifikujte podle potřeby tolik datových produktů (a datových aplikací, které je vypíše a udržují), aby bylo možné řídit architekturu aplikace datového produktu. Při rozhodování by měla hrát největší roli shoda s implementovanými zásadami správného řízení platforem.

Zaměřte se na to, jak jsou datové aplikace producenty a spotřebiteli dat pro ostatní. Předpokládejme například, že jste identifikovali sadu datových produktů (A, B, C a D), které se vytvářejí a spotřebovávají. Potřebujete datové produkty A a D jako zdroje dat v aplikaci Data B pro datový produkt B. Datový produkt B se vytvoří z dat, která aplikace Dat B využívá z datových produktů A a D. Aplikace dat B funguje jako samotný výrobce dat a také vytváří data pro datový produkt C.

Diagram producenta a konzumenta dat

Řízení prostředí datové aplikace pomocí infrastruktury jako kódu

Zásady správného řízení a infrastruktura jako kód by měly řídit prostředí datových aplikací v ekosystému datových produktů, jak je znázorněno v předchozím diagramu.

Publikování datových modelů

Týmy datových produktů by měly publikovat své datové modely v úložišti modelování.

Nastavení očekávání pro uživatele datového produktu

Aktualizujte kontrakty sdílení dat o smlouvách o úrovni služeb a certifikací pro vaše datové produkty, abyste mohli vyjádřit přesná očekávání potenciálním uživatelům datového produktu.

Zachytávání rodokmenu

Pokud je produkt B vytvořen z dat pocházejících z datových produktů A a D, musí být rodokmen zachycen z A a D do B. Další rodokmen by měl být zaznamenán také pro datový produkt C, protože je vytvořen pomocí dat z datového produktu B. Aktualizovaný rodokmen by se měl zachytit v aplikaci rodokmenu dat před každým vydáním datového produktu.

Poznámka:

Pomocí Azure Pipelines můžete vytvářet schvalovací brány a volat funkce, které zajišťují, aby metadata, rodokmen a smlouvy SLA byly zaregistrované ve správné službě zásad správného řízení.

Definování architektury datových aplikací

Musíte vytvořit podrobnou architekturu pro každý datový produkt, který plně definuje jeho vztah k jiným datovým produktům, jeho závislostem a požadavkům na přístup.

Ukázkový scénář návrhu

Pokud chcete porozumět procesu definice architektury, prozkoumejte následující příklad finanční instituce a jejího produktu pro monitorování úvěru.

Podrobný diagram architektury define-data-product

Produkt dat monitorování kreditů zobrazený v tomto diagramu využívá data z úložiště dat pro čtení, které ingestoval provozní tým integrace. Vytváří také datové produkty spotřebované dvěma dalšími datovými produkty.

Poznámka:

Zdroj dat nebo úložiště pro čtení se také označuje jako zlatý zdroj záznamů. Tyto zdroje dat byly vyčištěny, ale neměly na ně žádné transformace.

Produktový tým pro monitorování kreditů žádá o přístup pro čtení úložišť dat, která potřebují k vytvoření datového produktu. Jejich žádosti se směrují vlastníkům dat ke schválení. Jakmile obdrží schválení, může produktový tým začít vytvářet datová aplikace.

Data ze zdroje dat pro čtení se transformují na produkty dat monitorování kreditů. Všechny nové datové produkty se ukládají ve kurátorované vrstvě data lake. Tyto nové datové produkty a nová rodokmen dat by se měly zaregistrovat jako součást procesu nasazení DevOps. Funkce může kontrolovat registrovaná metadata s fyzickou strukturou datového prostředku. Měla by zaregistrovat závislost na datových prostředcích a datových produktech pro čtení zdroje dat.

Produktový tým pro schválení úvěru má závislost na některých datových produktech monitorování úvěru. Tým pro schválení půjčky může požádat o přístup pro čtení k datovým produktům monitorování úvěru, které vyžadují pro své datové produkty. Jakmile uvolní svůj datový produkt schválení úvěru a její datovou aplikaci, všechny datové prostředky, rodokmen a modely by se měly zaregistrovat v příslušných službách zásad správného řízení.

Ukázkové datové aplikace

Následující části obsahují ukázkové datové aplikace pro další ilustraci scénářů datových aplikací.

Datová analýza a datová aplikace pro datové vědy

Aplikace pro analýzu dat a datové vědy může obsahovat služby zobrazené v ukázkové datové aplikaci product-analytics-rg.

Diagram znázorňující možné služby, které je možné vybrat pro nasazení aplikací analytických dat

Poznámka:

Předchozí datovou aplikaci můžete použít jako šablonu. Tato šablona nasadí sadu služeb, které můžete použít pro analýzu dat a datové vědy. Tuto šablonu aplikace produktu pro data můžete použít k rychlému vytváření prostředí pro týmy napříč funkcemi. Musíte explicitně zakázat všechny služby, které nepotřebujete.

Šablona Analýzy datového produktu obsahuje všechny šablony pro nasazení datového produktu pro analýzy a datové vědy v cílové zóně analýzy v cloudovém měřítku.

Artefakty nasazení a kódu zahrnují následující služby:

Dávková datová aplikace

Šablona aplikace Batch Data Obsahuje všechny šablony pro nasazení datového produktu pro dávkové zpracování dat v cílové zóně pro analýzu v cloudovém měřítku.

Artefakty nasazení a kódu zahrnují následující služby:

Diagram znázorňující možné služby, které je možné vybrat pro nasazení aplikace batch dat

Streamovaná datová aplikace

Šablona aplikace streamovaných dat obsahuje všechny šablony pro nasazení datového produktu pro zpracování dat v reálném čase v cílové zóně pro analýzu dat v cloudovém měřítku.

Artefakty nasazení a kódu zahrnují následující služby:

Diagram znázorňující možné služby, které je možné vybrat pro nasazení streamovaných datových aplikací

Pokud chcete najít úložiště obsahující dříve uvedené šablony nasazení, projděte si šablony nasazení pro analýzy v cloudovém měřítku.

Další kroky

Datové aplikace (zarovnané zdroje)