Was ist ein Datenprodukt?

Jede Anwendung erstellt und speichert Daten entweder vorübergehend oder dauerhaft. Viele Anwendungen erstellen und speichern auch Daten für die Betriebsverwaltung. Beispiele wären etwa Fehlerprotokollierung und Integritätsüberwachung. Um die von diesen Anwendungen erzeugten Daten zu nutzen und zu verarbeiten, verwenden zentralisierte Datenteams ETL-(Extrahieren, Transformieren und Laden-)Prozesse. Teams für die Anwendungsabwicklung haben oft andere Datenverarbeitungsabläufe für Daten wie Daten zur Anwendungsintegrität und Daten zur Überwachung des KPI-Status.

Ein traditioneller Wasserfall-Ansatz, bei dem Teams eine bestimmte Reihenfolge von Phasen durchlaufen, ist für die Datenintegration nicht ideal. Dieser Ansatz kann zu Wissenslücken, Eigentumsproblemen und Kommunikationskonflikten führen, die die Qualität, Aktualität und den Wert Ihrer Daten für die Benutzer beeinträchtigen. Anwendungsteams sind für die Leistung und den Erfolg der Anwendung verantwortlich. Wenn Teams einen Wasserfallansatz verwenden, nehmen sie Änderungen an nachgelagerten Prozessen vor, die andere Teams besitzen. Diese Änderungen können sich auch auf andere Bereiche auswirken. Zum Beispiel kann eine kleine vorgelagerte Änderung den Trend eines KPI drastisch verändern. Diese Konflikte können Ihre Fähigkeit, kritische Entscheidungen zu treffen, beeinträchtigen.

Daten als Produkt

Um diese Probleme zu vermeiden, übernimmt der Datengitteransatz das Konzept von Daten als Produkt. Anwendungsbesitzer und Anwendungsteams behandeln Daten als ein vollständig abgeschlossenes Produkt, für das sie verantwortlich sind, und nicht als Nebenprodukt des Prozesses eines anderen Teams. Sowohl Anwendungen als auch Aufgaben, die analytische Daten liefern, liegen innerhalb von Domänenzuständigkeitsbereichen.

Datenprodukte werden speziell für die Nutzung zu Analysezwecken erstellt. Sie verfügen über definierte, vereinbarte und dokumentierte Formen, Nutzungsschnittstellen und Wartungs-/Aktualisierungszyklen.

Datenprodukte sind verarbeitete Domänendatenobjekte oder Datasets, die Sie über Schnittstellen in einem Ziel auf Dienstebene mit nachgelagerten Prozessen teilen können. Sofern nicht anders gefordert, sollten Sie Ihre Rohdaten verarbeiten, formen, bereinigen, aggregieren und normalisieren, um die vereinbarten Qualitätsstandards zu erfüllen, bevor Sie sie zur Nutzung bereitstellen.

In den folgenden Abschnitten werden die allgemeinen Merkmale guter Datenprodukte beschrieben.

Merkmale von Datenprodukten

Stellen Sie sicher, dass Ihre Datenprodukte:

  • Auffindbar, verständlich und vertrauenswürdig. Um Auffindbarkeit und Klarheit zu gewährleisten, geben Sie Informationen zu jedem Datenprodukt, seinen Daten, seiner Bedeutung, dem Formformat seiner Daten und seinem Aktualisierungszyklus frei, und aktualisieren Sie sie. Teilen Sie Daten- oder Formänderungen rechtzeitig den nachgeschalteten Verbrauchern mit. Um die Vertrauenswürdigkeit zu gewährleisten, bieten Schnittstellen eine zeitlich begrenzte Abwärtskompatibilität für Datenproduktformen.

  • Adressierbar, nativ zugänglich und sicher. Um die Adressierbarkeit zu gewährleisten, erstellen Sie definierte Prozesse, um jedes Datenprodukt zu lokalisieren und darauf zuzugreifen. Implementieren Sie Sicherheitsmaßnahmen für verschiedene Zugriffsanforderungen. Ändern Sie Ihre Einstellung in Bezug auf den Besitz von Datendomänen von der Kontrolle von Daten hin zur Bereitstellung von Daten mit klar definierten Sicherheitsvorkehrungen. Gut dokumentierte Zugriffsschnittstellen können je nach Technologie variieren. Zu gängigen Schnittstellen für nativ zugängliche Datenprodukte zählen APIs, Datenbankbenutzer, Tabellen oder Ansichten sowie Dateien mit erforderlichen Zugriffsberechtigungen.

  • Interoperabel, wahrheitsgemäß und wertvoll. Um die Interoperabilität zu gewährleisten, stellen Sie sicher, dass Ihre Daten auf definierte gemeinsame Standards folgen, z. B. Werte mit demselben Namen und Datentyp. Sie können beispielsweise eine Spalte, die Kundenidentifikationsdaten in jedem Datenprodukt enthält, CustomerID nennen, und die Daten können immer eine ganze Zahl sein. Datenprodukte bieten Kunden einen Mehrwert, und Sie können sie als Upstreamquellen für neue Datenprodukte in derselben Domäne bzw. in verschiedenen Domänen verwenden. Aber Sie können nicht einfach dasselbe Datenprodukt an mehreren Orten speichern und kopieren. Jedes Datenprodukt, das aus einem vorherigen Datenprodukt hervorgeht, muss einen neuen Nutzen und neue Informationen für nachgelagerte Consumer bieten. Datenprodukte müssen auch wahrheitsgemäße, genaue Daten bereitstellen.

Verwenden Sie gut konzipierte, gut gepflegte Datenprodukte und deren Schnittstellen, um doppelte Daten zu vermeiden und eine native Single Source of Truth zu schaffen.

Entwurfsempfehlungen für Datenprodukte

Um die Bereitstellungsanforderungen für Datenprodukte zu erfüllen, müssen Ihre Domänenteams neue Fähigkeiten erwerben und neue Tools und Plattformen verwenden.

Um die Datenanwendungen zu erstellen und Datenprodukte zu produzieren oder bereitzustellen, statten Sie Ihre Teams für die Domänenanwendung vollständig aus. Ihre Teams können einen vertrauten Technologiestack verwenden, um Datenprodukte zu erstellen. Möglicherweise bevorzugen sie auch eine eigene Spark-Instanz oder Pipeline-Engine. Beispielsweise kann eine große Domäne, die viele Datenprodukte bereitstellt, Datenprodukte aus ihrer eigenen Azure Synapse Analytics-Instanz verarbeiten und bereitstellen. Kleinere Organisationen und kleinere Domänen großer Organisationen entwickeln und führen ihre Datenanwendungen möglicherweise auf einer freigegebenen Plattform aus, z. B. einer zentral gelegenen Azure Data Factory-, Azure Synapse Analytics- oder Azure Databricks-Instanz.

Stellen Sie sicher, dass Ihre Datenprodukte die in diesem Artikel beschriebenen gemeinsamen Merkmale aufweisen, dass Ihr Abstammungs-Repository Ihre Datenanwendungsabstammung widerspiegelt und dass Sie Ihre Implementierung und Ihren Zugriff steuern.

Das folgende Diagramm zeigt ein Beispiel für ein logisches Datenanwendungslayout in einer Domäne und Zielzone.

Diagramm, das ein mögliches logisches Layout der Datenanwendung in einer Domäne und Zielzone zeigt.

Datenprodukt- und Datenanwendungsleitfaden für Azure

Sie können Ansätze für Ihre Datenanwendungsumgebung in Azure-Datenzielzonen positionieren, wenn Ihre Domänenanwendungsteams eine freigegebene Plattform und einen freigegebenen Satz von Diensten verwenden.

Diagramm, das die Ressourcengruppe data-application-rg aus dem Datenanwendungskontext und die Ressourcengruppe shared-application-rg aus dem Core Services-Kontext zeigt.

Beispiele für Mustervorlagen der Datenanwendungen für Azure-Datenzielzonen finden Sie unter Beispieldatenanwendungen.

Nächster Schritt