Datenzielzonen

Datenzielzonen sind per virtuelles Netzwerk-Peering (VNet) mit Ihrer Datenverwaltungszielzone verbunden. Jede Datenzielzone gilt als Zielzone im Zusammenhang mit Architektur der Azure-Zielzone.

Wichtig

Bevor Sie eine Datenzielzone bereitstellen, stellen Sie sicher, dass Sie Ihr DevOps- und CI/CD-Betriebsmodell eingerichtet und eine Zielzone für die Datenverwaltung eingerichtet haben.

Jede Datenzielzone verfügt über mehrere Ebenen, die Dienstdatenintegrationen und Datenprodukte, die in ihr enthalten sind, Flexibilität verleihen. Sie können eine neue Datenzielzone mit einem Standardsatz von Diensten bereitstellen, damit die Datenzielzone mit der Erfassung und Analyse von Daten beginnen kann.

Ihr Azure-Abonnement, das Ihrer Datenzielzone zugeordnet ist, weist die folgende Struktur auf:

Ebene Erforderlich Ressourcengruppen
Kerndienste Yes
Datenanwendung Optional
Visualisierung Optional

Hinweis

Eine Datenanwendung erzeugt ein oder mehrere Datenprodukte.

Architektur der Datenzielzone

Die Architektur der Datenzielzone veranschaulicht die Ebenen, ihre Ressourcengruppen sowie Dienste, die in jeder Ressourcengruppe enthalten sind. Die Architektur bietet zudem eine Übersicht über alle Ihrer Datenzielzone zugeordneten Gruppen und Rollen, und den Umfang ihres Zugriffs auf Ihre Steuerungs- und Datenebenen.

Diagramm der Architektur der Datenzielzone.

Tipp

Bevor Sie eine Datenzielzone bereitstellen, stellen Sie sicher, dass Sie die Anzahl der anfänglichen Datenzielzonen, die Sie bereitstellen möchten, beachten.

Verwenden Sie diese Architektur als Ausgangspunkt. Laden Sie die Visio-Datei herunter, und passen Sie sie beim Planen der Implementierung Ihrer Datenzielzone an Ihre spezifischen geschäftlichen und technischen Anforderungen an.

Ebene der Kerndienste

Die Ebene der Kerndienste umfasst alle Dienste, die erforderlich sind, um Ihre Datenzielzone im Kontext der Analysen auf Cloudebene zu aktivieren. In der folgenden Tabelle sind die Ressourcengruppen aufgeführt, die die Standardsammlung verfügbarer Dienste in jeder von Ihnen bereitgestellten Datenzielzone bereitstellen.

Ressourcengruppe Erforderlich Beschreibung
network-rg Ja Netzwerk
databricks-monitoring-rg Optional Überwachung für Azure Databricks-Arbeitsbereiche
hive-rg Optional Hive-Metastore für Azure Databricks
storage-rg Ja Data Lakes-Dienste
external-data-rg Ja Uploaderfassungsspeicher
runtimes-rg Ja Freigegebene Integration Runtimes
mgmt-rg Ja CI/CD-Agents
metadata-ingestion-rg Optional Datenagnostische Aufnahme
databricks-monitoring-rg Optional Protokollanalyse-Arbeitsbereich für Databricks Arbeitsbereiche in Zielzone
shared-synapse-rg Optional Freigegebene Azure Synapse
shared-databricks-rg Optional Freigegebener Azure Databricks-Arbeitsbereich

Netzwerk

Diagramm einer Netzwerkressourcengruppe für die Datenzielzone.

Die Netzwerkressourcengruppe enthält wichtige Komponenten, einschließlich Azure Network Watcher, Netzwerksicherheitsgruppen (NSG) und ein virtuelles Netzwerk. Alle diese Dienste werden in einer einzelnen Ressourcengruppe bereitgestellt.

Das virtuelle Netzwerk Ihrer Datenzielzone wird automatisch mit dem VNet Ihrer Datenverwaltungszielzone und dem VNet Ihres Konnektivitätsabonnements mittels Peering verbunden.

Überwachung der Azure Databricks-Arbeitsbereiche

Diese Ressourcengruppe ist optional und wird nur mit Azure Databricks bereitgestellt.

Diagramm der Ressourcengruppe zur Überwachung der Datenzielzone.

Das Azure-Zielzonenmuster empfiehlt, alle Protokolle an einen zentralen Log Analytics-Arbeitsbereich zu senden. Jede Datenzielzone enthält jedoch auch eine Überwachungsressourcengruppe, um Spark-Protokolle von Databricks zu erfassen. Jede Ressourcengruppe enthält einen freigegebenen Log Analytics-Arbeitsbereich und Azure Key Vault zum Speichern von Log Analytics-Schlüsseln.

Wichtig

Verwenden Sie nur den Log Analytics-Arbeitsbereich in Ihrer Databricks-Überwachungsressourcegruppe, um Azure Databricks Spark-Protokolle zu erfassen.

Weitere Informationen finden Sie unter Überwachung von Azure Databricks.

Hive-Metastore für Azure Databricks

Diese Ressourcengruppe ist optional und sollte nur mit Azure Databricks bereitgestellt werden.

Der Hive-Metastore für Azure Databricks stellt eine Azure Database for MySQL Datenbank und einen Schlüsseltresor bereit. Alle Azure Databricks-Arbeitsbereiche in Ihrer Datenzielzone verwenden diesen Metastore als externen Apache Hive-Metastore.

Weitere Informationen finden Sie im Externen Apache Hive-Metastore.

Data Lake-Dienste

Diagramm der Data Lake Services-Ressourcengruppe für die Datenzielzone.

Wie im vorherigen Diagramm gezeigt, werden drei Azure Data Lake Storage Gen2-Konten in einer einzelnen Data Lake Services-Ressourcengruppe bereitgestellt. Daten, die in verschiedenen Phasen umgewandelt werden, werden in einem der Data Lakes Ihrer Datenzielzone gespeichert. Die Daten stehen für den Verbrauch durch Ihre Analysen, Data Science und Visualisierungsteams zur Verfügung.

Data Lake-Ebenen verwenden je nach Technologie und Anbieter verschiedene Terminologie. In dieser Tabelle finden Sie Anleitungen zum Anwenden von Bedingungen für Analysen auf Cloudebene:

Analysen auf Cloudebene Delta Lake Sonstige Bedingungen BESCHREIBUNG
Raw Bronze Landung und Übereinstimmung Erfassungstabellen
Angereichert Silber Standardisierungszone Eingeschränkte Tabellen. Gespeicherte vollständige Entität, verbrauchsfähige Recordsets aus Systemen des Datensatzes.
Kuratiert Gold Produktzone Feature oder aggregierte Tabellen. Primäre Zone für Anwendungen, Teams und Benutzer, um Datenprodukte zu nutzen.
Entwicklung -- Entwicklungszone Speicherort für Datentechniker und Wissenschaftler, bestehend aus einer Analyse-Sandbox und einer Produktentwicklungszone.

Hinweis

Im vorherigen Diagramm weist jede Datenzielzone drei Data Lakes auf. Je nach Ihren Anforderungen möchten Sie ihre rohen, erweiterten und kuratierten Ebenen jedoch in ein Speicherkonto konsolidieren und ein anderes Speicherkonto mit dem Namen „Entwicklung“ für Datenconsumers verwalten, um andere nützliche Datenprodukte einzubringen.

Weitere Informationen finden Sie unter:

Uploaderfassungsspeicher

Dritte Datenanbieter müssen Daten in Ihrer Plattform landen, damit Ihre Datenanwendungsteams sie in ihre Data Lakes ziehen können. Wie im folgenden Diagramm dargestellt, können Sie in Ihrer Upload-Speicherressourcengruppe Blob-Speicher für Drittanbieter bereitstellen.

Diagramm des Speicherdiensts für Uploaderfassung

Ihre Datenanwendungsteams fordern diese Speicher-Blobs an. Ihre Anforderungen werden dann von Ihrem Team für Datenzielzonenvorgänge genehmigt. Die Daten sollten aus dem Quellspeicherblob entfernt werden, sobald sie aus dem Speicherblob in den Rohdatenbestand gezogen wurden.

Wichtig

Da Azure Storage Blobs nach Bedarf bereitgestellt werden, sollten Sie zunächst eine leere Speicherdienst-Ressourcengruppe in jeder Datenzielzone bereitstellen.

Freigegebene Integration Runtimes

Stellen Sie eine VM mit selbstgehosteter Integration Runtimes in Ihrer Datenzielzone bereit. Hosten Sie sie in der freigegebenen Integrationsressourcengruppe. Mit dieser Bereitstellung können Sie Datenprodukte schnell in Ihre Datenzielzone integrieren.

Diagramm einer freigegebenen Integrationsressourcengruppe für die Datenzielzone.

So aktivieren Sie die Ressourcengruppe:

Hinweis

Die oben erläuterte Bereitstellung stellt eine Bereitstellung einer einzelnen virtuellen Maschine mit den selbstgehosteten Integration Runtimes bereit. Sie können eine selbstgehostete Integration Runtime mehreren lokalen Computern oder virtuellen Computern in Azure zuordnen. Diese Computer werden als Knoten bezeichnet. Einer selbstgehosteten Integration Runtime können bis zu vier Knoten zugeordnet sein. Die Vorteile der Nutzung mehrerer Knoten auf lokalen Computern mit installiertem Gateway für ein logisches Gateway sind:

  • Höhere Verfügbarkeit der selbstgehosteten IR, damit es nicht mehr die einzige Fehlerquelle (Single Point of Failure) in Ihrer Big Data-Lösung oder Clouddatenintegration mit Data Factory ist. Auf diese Weise wird die Kontinuität mit bis zu vier Knoten sichergestellt.
  • Verbesserung in Bezug auf die Leistung und den Durchsatz während der Datenverschiebung zwischen lokalen und Clouddatenspeichern. Informieren Sie sich über Leistungsvergleiche.

Sie können mehrere Knoten zuordnen, indem Sie die Software für die selbstgehostete Integration Runtime aus dem Downloadcenter installieren. Registrieren Sie sie dann – wie im Tutorial beschrieben – mit einem der vom Cmdlet New-AzDataFactoryV2IntegrationRuntimeKey abgerufenen Authentifizierungsschlüssel.

Weitere Informationen finden Sie unter Hochverfügbarkeit und Skalierbarkeit in Azure Data Factory.

Wichtig

Stellen Sie die freigegebene Integration Runtime so nah wie möglich an der Datenquelle bereit. Ihre Bereitstellung beschränkt nicht Ihre Bereitstellung von Integration Runtimes in einer Datenzielzone oder in Clouds von Drittanbietern. Stattdessen bietet es eine Ausweichmöglichkeit für Cloud-native, regionsinterne Datenquellen.

CI/CD-Agents

CI/CD-Agents unterstützen Sie bei der Bereitstellung von Datenanwendungen und Änderungen in der Datenlandezone.

Weitere Informationen finden Sie unter Azure Pipeline-Agents.

Datenagnostische Aufnahme

Diagramm der Ressourcengruppe Erfassung und Verarbeitung der Datenzielzone.

Diese Ressourcengruppe ist optional und verhindert nicht, dass Sie Ihre Zielzone bereitstellen.

Diese Ressourcengruppe kommt zum Einsatz, wenn Sie eine datenagnostische Ingestion-Engine für die automatische Aufnahme von Daten auf der Grundlage der Registrierung von Metadaten (einschließlich Verbindungszeichenfolgen, Pfad zum Kopieren von Daten von und nach sowie Zeitplan für die Aufnahme) haben (oder entwickeln). Die Aufnahme- und Verarbeitungsressourcengruppe verfügt über wichtige Dienste für diese Art von Framework.

Stellen Sie eine Azure SQL-Datenbankinstanz bereit, um Metadaten zu halten, die von Azure Data Factory verwendet werden. Stellen Sie eine Azure Key Vault bereit, um Geheimnisse im Zusammenhang mit automatisierten Ingestiondiensten zu speichern. Diese Geheimnisse können Folgendes enthalten:

  • Azure Data Factory Metastore-Anmeldeinformationen
  • Dienstprinzipal-Anmeldeinformationen für Ihren automatisierten Erfassungsprozess

Weitere Informationen finden Sie unter Unterstützung der Analysen auf Cloudebene in Azure durch Frameworks zur automatisierten Erfassung.

Zu den Diensten, die in dieser Ressourcengruppe enthalten sind, gehört Folgendes:

Dienst Erforderlich Richtlinien
Azure Data Factory Ja Azure Data Factory ist Ihr Orchestrierungsmodul für datenagnostische Erfassung.
Azure SQL-Datenbank Ja Azure SQL DB ist der Metastore für Azure Data Factory.
Event Hubs oder IoT Hub Optional Event Hubs oder IoT Hub können Echtzeitstreaming zu Event Hubs sowie Batch- und Streaming-Verarbeitung über einen Databricks Engineering-Arbeitsbereich bieten.
Azure Databricks Optional Sie können Azure Databricks oder Azure Synapse Spark für die Verwendung mit Ihrem datenagnostischen Ingestion-Modul bereitstellen.
Azure Synapse Optional Sie können Azure Databricks oder Azure Synapse Spark zur Verwendung mit dem datenagnostischen Ingestion-Modul bereitstellen.

Freigegebene Databricks

Diese Ressourcengruppe ist optional und wird nur mit Azure Databricks bereitgestellt. Jeder in Ihrer Datenzielzone kann einen Databricks-Arbeitsbereich verwenden.

Azure Databricks ist ein wichtiger Consumer des Azure Data Lake Storage Diensts. Atomare Dateivorgänge sind für Spark-Analyse-Engines optimiert. Diese Optimierung beschleunigt den Abschluss von Spark-Aufträgen, die vom Azure Databricks-Dienst ausgegeben werden.

Diagramm der freigegebenen Databricks-Ressourcengruppe für die Datenzielzone

Wichtig

Ein Azure Databricks-Arbeitsbereich mit der Bezeichnung Azure Databricks (Analytics) Arbeitsbereich wird für alle Datenwissenschaftler und DataOps bereitgestellt, wie in der Ressourcengruppe Freigegebene Produkte gezeigt.

Sie können diesen Arbeitsbereich so konfigurieren, dass er sich mit Ihrem Azure Data Lake entweder via Microsoft Entra-Passthrough oder die Tabellenzugriffssteuerung verbindet. Abhängig von Ihrem Anwendungsfall können Sie den bedingten Zugriff als eine andere Sicherheitsmaßnahme konfigurieren.

Befolgen Sie die Best Practices für Analysen auf Cloudebene zur Integration von Azure Databricks:

Das Azure-Zielzonenmuster empfiehlt, alle Protokolle an einen zentralen Log Analytics-Arbeitsbereich zu senden. Jede Datenzielzone enthält jedoch auch eine Überwachungsressourcengruppe, um Spark-Protokolle von Databricks zu erfassen.

Shared Azure Synapse Analytics

Diese Ressourcengruppe ist optional.

Während Ihrer Ersteinrichtung einer Datenzielzone wird ein einzelner Azure Synapse Analytics-Arbeitsbereich für die Verwendung durch alle Datenanalysten und -wissenschaftlern in Ihrer Ressourcengruppe für freigegebene Produkte bereitgestellt.

Sie können weitere Synapse-Arbeitsbereiche für Datenprodukte einrichten, wenn Kostenverwaltung und Aufladen erforderlich sind. Ihre Datenanwendungsteams können dedizierte Azure Synapse Analytics-Arbeitsbereiche zum Erstellen dedizierter Azure SQL-Datenbankpools als Lesedatenspeicher nutzen, der von Ihrer Visualisierungsebene verwendet wird.

Wichtig

Verhindern Sie die Verwendung Ihres freigegebenen Azure Synapse Arbeitsbereichs für die Datenprodukterstellung, indem Sie den Arbeitsbereich sperren, um nur SQL On-Demand-Abfragen zuzulassen. Er dient nur zu Exploit-Zwecken.

Datenanwendung

Jede Datenzielzone kann mehrere Datenprodukte enthalten. Sie können diese Datenprodukte erstellen, indem Sie Daten aus der Quelle erfassen. Sie können außerdem Datenprodukte aus anderen Datenprodukten innerhalb derselben Datenzielzone oder aus anderen Datenzielzonen erstellen. Die Erstellung der Datenprodukte unterliegt der Genehmigung des Data Stewards.

Datenproduktressourcengruppe

Die Ressourcengruppe für Ihr Datenprodukt enthält alle Dienste, die erforderlich sind, um dieses Datenprodukt zu erstellen. Beispielsweise ist eine Azure-Datenbank für MySQL erforderlich, die von einem Visualisierungstool verwendet wird. Daten müssen erfasst und transformiert werden, bevor sie in dieser MySQL-Datenbank landen. In diesem Fall können Sie Azure Database for MySQL und eine Azure Data Factory in der Datenproduktressourcengruppe bereitstellen.

Tipp

Wenn Sie sich dafür entscheiden, keine Datenagnostik-Engine für die Aufnahme von Daten aus betrieblichen Quellen zu implementieren, oder wenn Ihre Datenagnostik-Engine keine komplexen Verbindungen ermöglicht, erstellen Sie eine auf die Quelle abgestimmte Datenanwendung. Weitere Informationen finden Sie unter Datenanwendungen (quellenausgerichtet)

Weitere Informationen zum Onboarding von Datenprodukten finden Sie unter Datenprodukte für Analysen auf Cloudebene in Azure.

Visualisierung

Eine leere Visualisierungsressourcengruppe wird für jede Datenzielzone erstellt. Füllen Sie diese Ressourcengruppe mit Diensten aus, die Sie zum Implementieren Ihrer Visualisierungslösung benötigen. Über Ihr bestehendes VNet kann Ihre Lösung mit Datenprodukten verbunden werden.

Diese Ressourcengruppe kann virtuelle Maschinen für Visualisierungsdienste von Drittanbietern hosten.

Tipp

Aufgrund von Lizenzkosten kann es kostengünstiger sein, Visualisierungsprodukte von Drittanbietern in Ihrer Datenverwaltungszielzone bereitzustellen und für diese Produkte eine Verbindung mit Datenzielzonen herzustellen, um Daten zurück zu pullen.

Nächste Schritte