Mehrere Datenzonen für Analysen auf Cloudebene in Azure

Diese Referenzarchitektur richtet sich an Organisationen, die eine Basisversion von Analysen auf Cloudebene implementiert haben und jetzt bereit sind, neue Geschäftseinheiten zu hosten, um ihre Analysevorgänge zu modernisieren. Dieses relativ komplexe Szenario nutzt mehrere Zielzonen, Datenanwendungen und Datenprodukte.

Apache Hive und das Hive-Logo sind entweder eingetragene Marken oder Marken der Apache Software Foundation in den USA und/oder anderen Ländern. Die Verwendung dieser Markierungen impliziert kein Endorsement durch die Apache Software Foundation.

Problembeschreibung

Relecloud, das fiktive Unternehmen in diesem Beispiel, ist ein privater Cloudanbieter, der gemeinsam genutzte Computing- und Speicherressourcen für globale Organisationen anbietet. Relecloud stellt zwar Computeressourcen zur Verfügung, möchte die Plattform jedoch nicht durch eigene interne Vorgänge einschränken. Daher verlässt sich das Unternehmen auf Microsoft Azure für seine internen Computinganforderungen.

Datenanalysten in der operativen Gruppe verwenden Telemetriedaten von Clouddiensten, um zu verstehen, wie ihre Kunden die Plattform nutzen. Ein separates Team von Analysten in der Abrechnungsgruppe untersucht Rechnungsdaten, um Erkenntnisse darüber zu erhalten, welche Dienste den größten Umsatz generieren.

Das operative Team hat im letzten Quartal seine Analyseplattform modernisiert, indem es sie zu Azure migriert hat. Ein Ziel bei der Implementierung von Analysen auf Cloudebene war, das Potenzial für die Skalierung der Plattform und das Hinzufügen neuer Organisationsworkloads zu maximieren.

Heute ist die Abrechnungsgruppe über ihre aktuelle Analyselösung hinausgewachsen. Die Menge der Rechnungen, die analysiert werden müssen, ist zu groß für den lokalen Server. Das Team entscheidet sich dazu, dem Vorbild der operativen Gruppe zu folgen und seine Datenanalyseplattform in Azure zu modernisieren.

Analysten in der Abrechnungsgruppe verfügen über andere Qualifikationen als die Analysten in der operativen Gruppe. Die Abrechnungsanalysten möchten nicht gezwungen sein, dieselben Tools wie die operative Gruppe zu verwenden. Die Abrechnungsgruppe befindet sich in einem anderen Teil der Organisation und möchte die Flexibilität besitzen, die Richtlinien und Verfahren zu implementieren, die ihren Anforderungen entsprechen.

Architektonische Lösung

Relecloud skaliert die Analyseplattform durch Hinzufügen einer neuen Zielzone für die Abrechnungsgruppe. Diese Zielzone stellt einen virtuellen Arbeitsbereich für die Abrechnungsgruppe zur Verfügung, um die Analyselösungen zu implementieren, die ihre Geschäftsanforderungen erfüllen. Indem die Zielzone von den anderen Ressourcen der Organisation getrennt ist, kann die Abrechnungsgruppe eigene Zugriffsrichtlinien implementieren und die Kosten ihrer Dienste berücksichtigen.

Das folgende Diagramm stellt nicht alle Azure-Dienste dar. Das Diagramm wurde vereinfacht, um die Kernkonzepte der Organisationsressourcen innerhalb der Architektur hervorzuheben.

Diagram of a multiple landing zone architecture for cloud-scale analytics.

Zielzone für die Datenverwaltung

Eine wichtige Anforderung bei jeder Implementierung von Analysen auf Cloudebene ist eine Zielzone für die Datenverwaltung. Dieses Abonnement enthält Ressourcen, die in allen Zielzonen gemeinsam genutzt werden, einschließlich freigegebener Netzwerkkomponenten wie einer Firewall oder privaten DNS-Zonen. Die Zielzone für die Datenverwaltung beinhaltet außerdem Ressourcen für Daten- und Cloudgovernance wie Azure Policy und Azure Purview.

Relecloud hat eine Zielzone für die Datenverwaltung erstellt, als die Datenanalyselösung für die operative Gruppe bereitgestellt wurde. Wenn die Abrechnungsgruppe der Plattform beitritt, verwendet sie dieselbe Zielzone für die Datenverwaltung, um gemeinsame Ressourcen mit der operativen Gruppe nutzen.

Zielzone der operativen Daten

Die operative Gruppe verfügt über die folgenden Lösungen in ihrer Datenzielzone.

Betriebsdatenanwendungen

Das Team hat eine quellenorientierte Datenanwendung erstellt, die Apache Spark-Aufträge in Azure Databricks verwendet, um Diensttelemetriedaten zu erfassen und in einem Azure Data Lake Storage-Konto zu speichern.

Bei diesem Prozess werden die Daten unverändert aus dem Quellsystem kopiert, aber nicht transformiert. Analysten können mit den kopierten Daten auf der Analyseplattform arbeiten, ohne das Quellsystem zu überlasten. Anstatt eine dedizierte Bereitstellung für diese Datenanwendung zu erstellen, verwendet das operative Team den Databricks-Arbeitsbereich in der freigegebenen Ressourcengruppe Erfassung und Verarbeitung.

Relecloud-Kunden können Cloudkonten erstellen, um Ressourcen und Abrechnungsvorgänge in ihren privaten Clouds zu verwalten. Jeder Kunde kann über mehrere Konten verfügen. Das Analyseteam hat eine Datenanwendung erstellt, um die Daten des Cloudkontos zu importieren. Da das Volumen und die Häufigkeit der Daten deutlich niedriger ist als für Telemetriedaten, muss das Team keine Spark-Aufträge verwenden. Stattdessen hat es Azure Data Factory-Pipelines erstellt, um die Daten zu kopieren.

Azure Database for MySQL fungiert als Hive-Metastore, und Azure SQL-Datenbank ist der Azure Data Factory-Metastore.

Produkte operativer Daten

Relecloud-Analysten ziehen einen Wert aus den Daten in den quellenorientierten Datenanwendungen, indem sie neue, verbraucherorientierte Datenanwendungen erstellen. Eine dieser verbraucherorientierten Datenanwendungen ist ein Modell für die Empfehlung von Clouddiensten. Relecloud-Datenanalysten haben mit Azure Machine Learning ein Modell entwickelt, das die in einem Cloudkonto genutzten Dienste untersucht und verwandte Dienste vorschlägt, die nützlich sein könnten. Das team stellt dieses Modell in einem AKS-Cluster (Azure Kubernetes Service) bereit, der in der Zielzone ausgeführt und von Azure Machine Learning verwaltet wird. Anwendungen, die außerhalb der Analysen auf Cloudebene ausgeführt werden, können den AKS-Endpunkt aufrufen, um Empfehlungen zu erhalten.

Nachdem das Abrechnungsteam seine Zielzone erstellt hat, erstellt das operative Team ein neues Datenprodukt, das vom operativen Verwaltungsteam angefordert wird. Das Verwaltungsteam möchte wissen, wie viel Umsatz die Datenanwendung für Clouddienstempfehlungen generiert. Das neue Datenprodukt Umsatz durch Empfehlungen verwendet Azure Synapse Analytics, um Daten aus Clouddienstempfehlungen und Umsatz nach Dienst in einem neuen Datenprodukt zu kombinieren. Geschäftsanalysten können eine Verbindung mit Azure Synapse mit Microsoft Power BI herstellen, um Erkenntnisse aus diesem neuen Datenprodukt zu ermitteln und zu melden.

Zielzone für Abrechnungsdaten

Die Abrechnungsgruppe verwendete ein lokales System für ihre Analysen. Als jedoch das Datenvolumen wuchs und das Unternehmen immer mehr auf ihre Arbeit angewiesen war, konnte das System nicht mehr Schritt halten. Die Gruppe modernisiert ihre Plattform durch den Umstieg auf die Cloud.

Die Abrechnungsgruppe nutzt keine Zielzone gemeinsam mit der operativen Gruppe, sondern erhält eine eigene Zielzone, in der sie die Möglichkeit hat, die Plattform zu erstellen, die ihren Anforderungen am besten entspricht. Die neue Zielzone wird mit der Zielzone für die Datenverwaltung und allen anderen Datenzielzonen durch Peering virtueller Netzwerke verbunden. Dadurch können Daten sicher über das interne Azure-Netzwerk freigegeben werden.

Abrechnungsdatenanwendungen

Um Daten aus vorhandenen Systemen auf der Analyseplattform zu speichern, erstellt die Abrechnungsgruppe zwei Datenanwendungen. Die erste Anwendung erfasst die Kundendaten, einschließlich der vollständigen Kundenliste und aller zugehörigen Daten, z. B. Kundenadressen, Standorte und Vertriebsmitarbeiterzuweisungen. Die zweite Anwendung importiert den Rechnungsverlauf des Unternehmens, der alle Abrechnungsgebühren für Kunden und die zugehörigen Zahlungsdaten enthält.

Beide Anwendungen werden durch Pipelines im freigegebenen Azure Synapse-Arbeitsbereich unterstützt. Jede Anwendung verfügt über einen dedizierten Computepool, um Kostenabrechnung und Sicherheitsgrenzen zu ermöglichen. Da die Anwendungen vollständig mit freigegebenen Ressourcen implementiert werden können, muss die Abrechnungsgruppe keine Bereitstellung für diese Datenanwendungen erstellen.

Abrechnungsdatenprodukt

Die Abrechnungsanalysten erstellen ein neues Datenprodukt namens Umsatz nach Dienst, das analysiert, wie viel Umsatz jeder Clouddienst für Relecloud generiert. Dieses Produkt verwendet die Daten in der Erfassung Rechnungen. Außerdem wird für das Produkt eine Verbindung mit der operativen Zielzone hergestellt, und die Dienstnutzungsdaten werden gelesen. Wie die Datenanwendungen verwendet auch das Datenprodukt den freigegebenen Azure Synapse-Arbeitsbereich.

Bereitstellungsvorlagen

Verwenden Sie zum Bereitstellen der Architekturen die folgenden Referenzimplementierungsvorlagen für die Datenverwaltungs-Zielzone und für die Datenzielzone:

Verwenden Sie die folgenden Vorlagen, um die anderen Datenanwendungen und Datenprodukte in den Relecloud-Zielzonen für Abrechnungs- und Betriebsdaten bereitzustellen:

Name Zielzone für Daten type Vorlage
Cloudkonten Operations Datenanwendung Batchvorlage für Datenprodukt
Umsatz durch Empfehlungen Operations Datenprodukt Batchvorlage für Datenprodukt
Clouddienstempfehlungen Operations Datenanwendung Vorlage für Datenproduktanalysen
Umsatz nach Dienst Abrechnung Datenprodukt Batchvorlage für Datenprodukt

Wichtig

Relecloud muss nicht alle Elemente in den oben genannten Referenzimplementierungsvorlagen bereitstellen, um die Anforderungen zu erfüllen. Die Vorlagen müssen in gewissem Umfang angepasst werden. Entfernen Sie vor der Bereitstellung nicht benötigte Dienste aus den Vorlagen.

Nächste Schritte

Fahren Sie mit dem Lamna Healthcare-Szenario für sichere Analysen auf Cloudebene in Azure fort.

Weitere Informationen finden Sie in den folgenden Artikeln: