Volba technologie analýzy dat a generování sestav v Azure
Cílem většiny řešení pro velké objemy dat je poskytnout přehled o datech prostřednictvím analýzy a vytváření sestav. Může to zahrnovat předkonfigurované sestavy a vizualizace nebo interaktivní zkoumání dat.
Jaké máte možnosti při výběru technologie analýzy dat?
V Azure je několik možností analýzy, vizualizací a generování sestav v závislosti na vašich potřebách:
- Power BI
- Poznámkové bloky Jupyter
- Poznámkové bloky Zeppelin
- Poznámkové bloky Jupyter v editoru Visual Studio Code (VS Code)
Power BI
Power BI je sada nástrojů pro obchodní analýzy. Může se připojit ke stovkám zdrojů dat a dá se použít k ad hoc analýze. Podívejte se na tento seznam aktuálně dostupných zdrojů dat. Power BI Embedded můžete použít k integraci Power BI ve vlastních aplikacích bez nutnosti dalšího licencování.
Organizace můžou pomocí Power BI vytvářet sestavy a publikovat je do organizace. Každý může vytvářet přizpůsobené řídicí panely s integrovanými zásadami správného řízení a zabezpečením. Power BI používá Microsoft Entra ID k ověřování uživatelů, kteří se přihlašují k služba Power BI, a používá přihlašovací údaje Power BI pokaždé, když se uživatel pokusí získat přístup k prostředkům, které vyžadují ověření.
Poznámkové bloky Jupyter
Jupyter Notebooks poskytují prostředí založené na prohlížeči, které datovým vědcům umožňuje vytvářet soubory poznámkových bloků obsahující kód Python, Scala nebo R a markdown, což umožňuje efektivní způsob spolupráce sdílením a dokumentováním kódu a výsledků v jednom dokumentu.
Většina typů clusterů HDInsight, jako je Spark nebo Hadoop, je předem nakonfigurovaná s poznámkovými bloky Jupyter pro interakci s daty a odesílání úloh pro zpracování. V závislosti na typu clusteru HDInsight, který používáte, bude k dispozici jedno nebo více jader pro interpretaci a spuštění kódu. Například clustery Spark ve službě HDInsight poskytují jádra související se Sparkem, ze kterého můžete spouštět kód Pythonu nebo Scala pomocí modulu Spark.
Poznámkové bloky Jupyter poskytují skvělé prostředí pro analýzu, vizualizaci a zpracování dat před vytvořením pokročilejších vizualizací pomocí nástroje BI nebo vytváření sestav, jako je Power BI.
Poznámkové bloky Zeppelin
Poznámkové bloky Zeppelin jsou další možností pro prostředí založené na prohlížeči, podobně jako jupyter ve funkcích. Některé clustery HDInsight jsou předem nakonfigurované s poznámkovými bloky Zeppelin. Pokud ale používáte cluster HDInsight Interactive Query (Hive LLAP), je Zeppelin v současné době vaším jediným výběrem poznámkového bloku, který můžete použít ke spouštění interaktivních dotazů Hive. Pokud používáte cluster HDInsight připojený k doméně, jsou poznámkové bloky Zeppelin jediným typem, který umožňuje přiřadit různá přihlášení uživatelů k řízení přístupu k poznámkovým blokům a podkladovým tabulkám Hive.
Poznámkové bloky Jupyter ve VS Code
VS Code je bezplatný editor kódu a vývojová platforma, kterou můžete použít místně nebo připojit ke vzdálenému výpočetnímu prostředí. V kombinaci s rozšířením Jupyter nabízí kompletní prostředí pro vývoj v Jupyteru, které je možné vylepšit dalšími jazykovými rozšířeními. Pokud chcete mít špičkové bezplatné prostředí Jupyter s možností využití výpočetních prostředků podle vašeho výběru, je to skvělá volba. Pomocí nástroje VS Code můžete vyvíjet a spouštět poznámkové bloky na vzdálených zařízeních a kontejnerech. Abychom usnadnili přechod z Azure Notebooks, zpřístupnili jsme image kontejneru, aby ji bylo možné použít i s VS Code.
Jupyter (dříve IPython Notebook) je opensourcový projekt, který umožňuje snadno kombinovat text Markdownu a spustitelný zdrojový kód Pythonu na jednom plátně označovaný jako poznámkový blok. Visual Studio Code podporuje nativní práci s poznámkovými bloky Jupyter a soubory kódu Pythonu.
Klíčová kritéria výběru
Pokud chcete zúžit možnosti, začněte zodpovězením těchto otázek:
Potřebujete se připojit k mnoha zdrojům dat a poskytnout centralizované místo pro vytváření sestav pro data rozložená v celé vaší doméně? Pokud ano, zvolte možnost, která vám umožní připojit se k 100s zdrojům dat.
Chcete vložit dynamické vizualizace do externího webu nebo aplikace? Pokud ano, zvolte možnost, která poskytuje možnosti vkládání.
Chcete při práci offline navrhovat vizualizace a sestavy? Pokud ano, zvolte možnost s možnostmi offline.
Potřebujete vysoký výpočetní výkon pro trénování velkých nebo složitých modelů AI nebo práci s velmi velkými datovými sadami? Pokud ano, zvolte možnost, která se může připojit ke clusteru s velkými objemy dat.
Matice schopností
Následující tabulky shrnují klíčové rozdíly v možnostech.
Obecné možnosti
Schopnost | Power BI | Poznámkové bloky Jupyter | Poznámkové bloky Zeppelin | Poznámkové bloky Jupyter ve VS Code |
---|---|---|---|---|
Připojení ke clusteru s velkými objemy dat pro pokročilé zpracování | Ano | Ano | Ano | No |
Spravovaná služba | Ano | Ano 1 | Ano 1 | Ano |
Připojení k 100s zdrojům dat | Yes | No | No | Ne |
Offline možnosti | Ano 2 | No | No | Ne |
Možnosti vkládání | Yes | No | No | Ne |
Automatická aktualizace dat | Yes | No | No | Ne |
Přístup k mnoha opensourcových balíčkům | No | Ano 3 | Ano 3 | Ano 4 |
Možnosti transformace a čištění dat | Power Query, R | 40 jazyků, včetně Pythonu, R, Julia a Scaly | 20 a více interpretů, včetně Pythonu, JDBC a R | Python, F#, R |
Ceny | Bezplatné pro Power BI Desktop (vytváření obsahu) najdete informace o cenách pro možnosti hostování. | Bezplatný | Bezplatný | Bezplatný |
Spolupráce s více uživateli | Ano | Ano (prostřednictvím sdílení nebo s víceuživatelovým serverem, jako je JupyterHub) | Ano | Ano (prostřednictvím sdílení) |
[1] Pokud se používá jako součást spravovaného clusteru HDInsight.
[2] S použitím Power BI Desktopu.
[2] V úložišti Maven můžete vyhledat balíčky , které přispěly komunitou.
[3] Balíčky Pythonu je možné nainstalovat pomocí pipu nebo Conda. Balíčky R je možné nainstalovat z CRAN nebo GitHubu. Balíčky v jazyce F# je možné nainstalovat prostřednictvím nuget.org pomocí správce závislostí paketu.
Přispěvatelé
Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.
Hlavní autor:
- Zoiner Tejada | Generální ředitel a architekt
Další kroky
- Začínáme s poznámkovými bloky Jupyter pro Python
- Poznámkové bloky
- Spuštění poznámkových bloků Azure Databricks pomocí Azure Data Factory
- Spouštění poznámkových bloků Jupyter ve vašem pracovním prostoru
- Co je Power BI?