Volba technologie analýzy dat a generování sestav v Azure

Cílem většiny řešení pro velké objemy dat je poskytnout přehled o datech prostřednictvím analýzy a vytváření sestav. Může to zahrnovat předkonfigurované sestavy a vizualizace nebo interaktivní zkoumání dat.

Jaké máte možnosti při výběru technologie analýzy dat?

V Azure je několik možností analýzy, vizualizací a generování sestav v závislosti na vašich potřebách:

Power BI

Power BI je sada nástrojů pro obchodní analýzy. Může se připojit ke stovkám zdrojů dat a dá se použít k ad hoc analýze. Podívejte se na tento seznam aktuálně dostupných zdrojů dat. Power BI Embedded můžete použít k integraci Power BI ve vlastních aplikacích bez nutnosti dalšího licencování.

Organizace můžou pomocí Power BI vytvářet sestavy a publikovat je do organizace. Každý může vytvářet přizpůsobené řídicí panely s integrovanými zásadami správného řízení a zabezpečením. Power BI používá Microsoft Entra ID k ověřování uživatelů, kteří se přihlašují k služba Power BI, a používá přihlašovací údaje Power BI pokaždé, když se uživatel pokusí získat přístup k prostředkům, které vyžadují ověření.

Poznámkové bloky Jupyter

Jupyter Notebooks poskytují prostředí založené na prohlížeči, které datovým vědcům umožňuje vytvářet soubory poznámkových bloků obsahující kód Python, Scala nebo R a markdown, což umožňuje efektivní způsob spolupráce sdílením a dokumentováním kódu a výsledků v jednom dokumentu.

Většina typů clusterů HDInsight, jako je Spark nebo Hadoop, je předem nakonfigurovaná s poznámkovými bloky Jupyter pro interakci s daty a odesílání úloh pro zpracování. V závislosti na typu clusteru HDInsight, který používáte, bude k dispozici jedno nebo více jader pro interpretaci a spuštění kódu. Například clustery Spark ve službě HDInsight poskytují jádra související se Sparkem, ze kterého můžete spouštět kód Pythonu nebo Scala pomocí modulu Spark.

Poznámkové bloky Jupyter poskytují skvělé prostředí pro analýzu, vizualizaci a zpracování dat před vytvořením pokročilejších vizualizací pomocí nástroje BI nebo vytváření sestav, jako je Power BI.

Poznámkové bloky Zeppelin

Poznámkové bloky Zeppelin jsou další možností pro prostředí založené na prohlížeči, podobně jako jupyter ve funkcích. Některé clustery HDInsight jsou předem nakonfigurované s poznámkovými bloky Zeppelin. Pokud ale používáte cluster HDInsight Interactive Query (Hive LLAP), je Zeppelin v současné době vaším jediným výběrem poznámkového bloku, který můžete použít ke spouštění interaktivních dotazů Hive. Pokud používáte cluster HDInsight připojený k doméně, jsou poznámkové bloky Zeppelin jediným typem, který umožňuje přiřadit různá přihlášení uživatelů k řízení přístupu k poznámkovým blokům a podkladovým tabulkám Hive.

Poznámkové bloky Jupyter ve VS Code

VS Code je bezplatný editor kódu a vývojová platforma, kterou můžete použít místně nebo připojit ke vzdálenému výpočetnímu prostředí. V kombinaci s rozšířením Jupyter nabízí kompletní prostředí pro vývoj v Jupyteru, které je možné vylepšit dalšími jazykovými rozšířeními. Pokud chcete mít špičkové bezplatné prostředí Jupyter s možností využití výpočetních prostředků podle vašeho výběru, je to skvělá volba. Pomocí nástroje VS Code můžete vyvíjet a spouštět poznámkové bloky na vzdálených zařízeních a kontejnerech. Abychom usnadnili přechod z Azure Notebooks, zpřístupnili jsme image kontejneru, aby ji bylo možné použít i s VS Code.

Jupyter (dříve IPython Notebook) je opensourcový projekt, který umožňuje snadno kombinovat text Markdownu a spustitelný zdrojový kód Pythonu na jednom plátně označovaný jako poznámkový blok. Visual Studio Code podporuje nativní práci s poznámkovými bloky Jupyter a soubory kódu Pythonu.

Klíčová kritéria výběru

Pokud chcete zúžit možnosti, začněte zodpovězením těchto otázek:

  • Potřebujete se připojit k mnoha zdrojům dat a poskytnout centralizované místo pro vytváření sestav pro data rozložená v celé vaší doméně? Pokud ano, zvolte možnost, která vám umožní připojit se k 100s zdrojům dat.

  • Chcete vložit dynamické vizualizace do externího webu nebo aplikace? Pokud ano, zvolte možnost, která poskytuje možnosti vkládání.

  • Chcete při práci offline navrhovat vizualizace a sestavy? Pokud ano, zvolte možnost s možnostmi offline.

  • Potřebujete vysoký výpočetní výkon pro trénování velkých nebo složitých modelů AI nebo práci s velmi velkými datovými sadami? Pokud ano, zvolte možnost, která se může připojit ke clusteru s velkými objemy dat.

Matice schopností

Následující tabulky shrnují klíčové rozdíly v možnostech.

Obecné možnosti

Schopnost Power BI Poznámkové bloky Jupyter Poznámkové bloky Zeppelin Poznámkové bloky Jupyter ve VS Code
Připojení ke clusteru s velkými objemy dat pro pokročilé zpracování Ano Ano Ano No
Spravovaná služba Ano Ano 1 Ano 1 Ano
Připojení k 100s zdrojům dat Yes No No Ne
Offline možnosti Ano 2 No No Ne
Možnosti vkládání Yes No No Ne
Automatická aktualizace dat Yes No No Ne
Přístup k mnoha opensourcových balíčkům No Ano 3 Ano 3 Ano 4
Možnosti transformace a čištění dat Power Query, R 40 jazyků, včetně Pythonu, R, Julia a Scaly 20 a více interpretů, včetně Pythonu, JDBC a R Python, F#, R
Ceny Bezplatné pro Power BI Desktop (vytváření obsahu) najdete informace o cenách pro možnosti hostování. Bezplatný Bezplatný Bezplatný
Spolupráce s více uživateli Ano Ano (prostřednictvím sdílení nebo s víceuživatelovým serverem, jako je JupyterHub) Ano Ano (prostřednictvím sdílení)

[1] Pokud se používá jako součást spravovaného clusteru HDInsight.

[2] S použitím Power BI Desktopu.

[2] V úložišti Maven můžete vyhledat balíčky , které přispěly komunitou.

[3] Balíčky Pythonu je možné nainstalovat pomocí pipu nebo Conda. Balíčky R je možné nainstalovat z CRAN nebo GitHubu. Balíčky v jazyce F# je možné nainstalovat prostřednictvím nuget.org pomocí správce závislostí paketu.

Přispěvatelé

Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.

Hlavní autor:

Další kroky