Wählen Sie eine Technologie zur Datenanalyse und Berichterstellung in Azure
Ziel der meisten Big Data-Lösungen ist es, über Analysen und Berichte Einblicke in die Daten zu bieten. Beispiele hierfür sind vorkonfigurierte Berichte und Visualisierungen oder die interaktive Datenuntersuchung.
Welche Möglichkeiten stehen Ihnen bei der Wahl der Technologie für die Datenanalyse zur Verfügung?
Je nach Ihren Anforderungen haben Sie für die Analyse, Visualisierung und Berichterstellung in Azure mehrere Optionen:
Power BI
Power BI ist eine Suite mit Business Analytics-Tools. Sie ermöglicht die Herstellung einer Verbindung mit Hunderten von Datenquellen und kann für Ad-hoc-Analysen verwendet werden. Die derzeit verfügbaren Datenquellen sind in dieser Liste aufgeführt. Verwenden Sie Power BI Embedded, um Power BI in Ihre eigenen Anwendungen zu integrieren, ohne dass eine zusätzliche Lizenzierung erforderlich ist.
Organisationen können Power BI verwenden, um Berichte zu erstellen und für die gesamte Organisation zu veröffentlichen. Jeder kann personalisierte Dashboards mit Integration von Governance und Sicherheit erstellen. Für Power BI wird Microsoft Entra ID zum Authentifizieren von Benutzer*innen eingesetzt, die sich beim Power BI-Dienst anmelden. Die Power BI-Anmeldeinformationen werden jedes Mal verwendet, wenn Benutzer*innen versuchen, auf Ressourcen zuzugreifen, für die eine Authentifizierung erforderlich ist.
Jupyter Notebook
Jupyter-Notebooks verfügen über eine browserbasierte Shell, mit deren Hilfe Data Scientists Notebook-Dateien erstellen können, die Python-, Scala- oder R-Code und Markdowntext enthalten. Dies ist eine effektive Möglichkeit zur Kollaboration, indem der Code und Ergebnisse in einem zentralen Dokument freigegeben und dokumentiert werden.
Die meisten Varianten von HDInsight-Clustern, z.B. Spark oder Hadoop, sind mit Jupyter-Notebooks vorkonfiguriert, um die Interaktion mit Daten und die Übermittlung von Aufträgen zur Verarbeitung zu ermöglichen. Je nach verwendetem Typ des HDInsight-Clusters werden einer oder mehrere Kernel für die Interpretation und Ausführung Ihres Codes bereitgestellt. Spark-Cluster in HDInsight verfügen beispielsweise über Spark-bezogene Kernel, aus denen Sie wählen können, um Python- oder Scala-Code mit dem Spark-Modul auszuführen.
Jupyter-Notebooks sind eine hervorragende Umgebung zum Analysieren, Visualisieren und Verarbeiten Ihrer Daten vor der Erstellung von anspruchsvolleren Visualisierungen mit einem BI- oder Berichterstellungstool wie Power BI.
Zeppelin-Notebooks
Zeppelin-Notebooks sind eine weitere Option für eine browserbasierte Shell, wobei die Funktionalität mit Jupyter vergleichbar ist. Für einige HDInsight-Cluster sind Zeppelin-Notebooks bereits vorkonfiguriert. Wenn Sie aber einen Cluster vom Typ HDInsight Interactive Query (Hive LLAP) verwenden, ist Zeppelin derzeit das einzige Notebook, das Sie zum Ausführen von interaktiven Hive-Abfragen einsetzen können. Falls Sie einen in die Domäne eingebundenen HDInsight-Cluster nutzen, sind Zeppelin-Notebooks außerdem der einzige Typ, bei dem Sie unterschiedliche Benutzeranmeldungen zuweisen können, um den Zugriff auf Notebooks und die zugrunde liegenden Hive-Tabellen zu steuern.
Jupyter Notebooks in VS Code
VS Code ist ein kostenloser Code-Editor und eine Entwicklungsplattform, die Sie lokal oder remote verwenden können. In Kombination mit der Jupyter-Erweiterung bietet sie eine vollständige Umgebung für die Jupyter-Entwicklung, die mit zusätzlichen Spracherweiterungen verbessert werden kann. Wenn Sie eine erstklassige, kostenlose Jupyter-Erfahrung suchen, in der Sie die Computeleistung Ihrer Wahl verwenden können, ist dies eine herausragende Option. Mithilfe von VS Code können Sie Notebooks für Remoterepositorys und Container entwickeln und ausführen. Um den Übergang von Azure Notebooks zu vereinfachen, haben wir das Containerimage verfügbar gemacht, damit es auch mit VS Code verwendet werden kann.
Jupyter (ehemals IPython Notebook) ist ein Open-Source-Projekt, mit dem Sie problemlos Markdowntext und ausführbaren Python-Quellcode auf einem Zeichenbereich kombinieren können, der als Notebook bezeichnet wird. Visual Studio Code unterstützt die Verwendung von Jupyter Notebooks nativ und über Python-Codedateien.
Wichtige Auswahlkriterien
Beantworten Sie die folgenden Fragen, um die Auswahl einzuschränken:
Müssen Sie eine Verbindung mit einer großen Zahl von Datenquellen herstellen und einen zentralen Ort zur Erstellung von Berichten für Daten bereitstellen, die in Ihrer gesamten Domäne verteilt sind? Wenn ja, sollten Sie eine Option wählen, mit der Sie eine Verbindung mit Hunderten von Datenquellen herstellen können.
Möchten Sie dynamische Visualisierungen in eine externe Website oder Anwendung einbetten? Wenn ja, sollten Sie eine Option wählen, die über Funktionen für das Einbetten verfügt.
Möchten Sie Ihre Visualisierungen und Berichte im Offlinezustand entwerfen? Wenn ja, sollten Sie eine Option mit Offlinefunktionen wählen.
Benötigen Sie eine hohe Verarbeitungsleistung, um große oder komplexe KI-Modelle zu trainieren oder mit sehr großen Datasets zu arbeiten? Wenn ja, sollten Sie eine Option wählen, bei der eine Verbindung mit einem Big Data-Cluster hergestellt werden kann.
Funktionsmatrix
In den folgenden Tabellen sind die Hauptunterschiede der Funktionen zusammengefasst:
Allgemeine Funktionen
Funktion | Power BI | Jupyter Notebook | Zeppelin-Notebooks | Jupyter Notebooks in VS Code |
---|---|---|---|---|
Verbindungsherstellung mit einem Big Data-Cluster zur erweiterten Verarbeitung | Ja | Ja | Ja | Nein |
Verwalteter Dienst | Ja | Ja 1 | Ja 1 | Ja |
Verbindungsherstellung mit Hunderten von Datenquellen | Ja | Nr. | Nr. | Nein |
Offlinefunktionen | Ja 2 | Nein | Nr. | Nein |
Einbettung von Funktionen | Ja | Nr. | Nr. | Nein |
Automatische Datenaktualisierung | Ja | Nr. | Nr. | Nein |
Zugriff auf eine große Zahl von Open-Source-Paketen | Nein | Ja 3 | Ja 3 | Ja 4 |
Optionen für Datentransformation/-bereinigung | Power Query, R | 40 Sprachen, z.B. Python, R, Julia und Scala | 20+ Interpreter, z.B. Python, JDBC und R | Python, F#, R |
Preise | Kostenlos für Power BI Desktop (Erstellung), siehe die Hostingoptionen unter Preise | Kostenlos | Kostenlos | Kostenlos |
Kollaboration mehrerer Benutzer | Ja | Ja (per Freigabe oder über einen Mehrbenutzer-Server wie JupyterHub) | Ja | Ja (per Freigabe) |
[1] Bei Verwendung als Teil eines verwalteten HDInsight-Clusters.
[2] Bei Verwendung von Power BI Desktop.
[2] Sie können das Maven-Repository nach Paketen durchsuchen, die von der Community bereitgestellt wurden.
[3] Python-Pakete können entweder über pip oder Conda installiert werden. R-Pakete können über CRAN oder GitHub installiert werden. Pakete in F# können über „nuget.org“ mit dem Paket-Abhängigkeits-Manager installiert werden.
Beitragende
Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:
Hauptautor:
- Zoiner Tejada | CEO und Architekt
Nächste Schritte
- Erste Schritte mit Jupyter Notebooks für Python
- Notebooks
- Ausführen von Azure Databricks-Notebooks mit Azure Data Factory
- Ausführen von Jupyter Notebooks in Ihrem Arbeitsbereich
- Was ist Power BI?