Mit Delta-Tabellen in Azure Data Lake Storage verbinden

Stellen Sie eine Verbindung zu Daten in Delta-Tabellen her und pflegen Sie sie in Dynamics 365 Customer Insights - Data ein.

Hauptgründe für die Verbindung mit im Delta-Format gespeicherten Daten:

  • Importieren Sie Daten im Delta-Format direkt, um Zeit und Aufwand zu sparen.
  • Eliminieren Sie die Rechen- und Speicherkosten, die mit der Umwandlung und Speicherung einer Kopie Ihrer Lakehouse-Daten verbunden sind.
  • Verbessern Sie automatisch die Zuverlässigkeit der Datenerfassung in Customer Insights - Data, die durch die Delta-Versionsverwaltung bereitgestellt wird.

Unterstützte Databricks-Funktionen und -Versionen

Customer Insights - Data unterstützt Databricks-Funktionen mit einer „minReaderVersion“ von 2 oder früher. Databricks-Funktionen, die Databricks Leser Version 3 oder höher erfordern, werden nicht unterstützt. Die Tabelle zeigt die unterstützten und nicht unterstützten Databricks-Funktionen.

Unterstützte Funktionen Nicht unterstützte Funktionen
Grundlegende Funktionalität Deletionsvektoren
Datenfeed ändern Flüssigkeitsclusterung
Einschränkungen prüfen Tabellenfunktionen schreiben
Zuordnung von Spalten ZeitstempelNTZ
Spalten generieren Typerweiterung
Identitätsspalten Variante
Zeilenverfolgung
Tabellenfunktionen lesen
Uniform

Weitere Informationen: Wie verwaltet Databricks die Funktionskompatibilität von Delta Lake?

Anforderungen

  • Der Azure Data Lake Storage muss sich im selben Mandanten und in der gleichen Azure-Region befinden wie Customer Insights - Data.

  • Der Customer Insights - Data-Dienstprinzipal muss über Berechtigungen als Storage-Blob-Datenmitwirkender haben, um auf das Speicherkonto zugreifen zu können. Weitere Informationen finden Sie unter Gewähren Sie dem Dienstprinzipal Berechtigungen für den Zugriff auf das Speicherkonto.

  • Der Benutzende, der die Datenquelle einrichtet oder aktualisiert, benötigt mindestens Berechtigungen eines Storage-Blob-Datenlesers für das Azure Data Lake Storage Konto.

  • Daten, die in Online-Diensten gespeichert sind, können an einem anderen Ort gespeichert werden als dort, wo die Daten verarbeitet oder gespeichert werden. Durch den Import von oder die Verbindung zu Daten, die in Onlinediensten gespeichert sind, erklären Sie sich damit einverstanden, dass die Daten übertragen werden können. Weitere Informationen finden Sie im Microsoft Trust Center.

  • Customer Insights - Data unterstützt die Databricks-Leserversion 2. Delta-Tabellen, die Features verwenden, die Databricks-Leserversion 3 oder höher erfordern, werden nicht unterstützt. Mehr erfahren: Unterstützte Databricks-Funktionen.

  • Die Delta-Tabellen müssen sich in einem Ordner im Speichercontainer befinden und dürfen sich nicht im Container-Stammverzeichnis befinden. Zum Beispiel:

    storageaccountcontainer/
        DeltaDataRoot/
           ADeltaTable/
                 _delta_log/
                     0000.json
                     0001.json
                 part-0001-snappy.parquet
                 part-0002-snappy.parquet
    
  • Die Daten in Ihrem Azure Data Lake Storage müssen in Delta-Tabellen vorliegen. Customer Insights - Data stützt sich auf die Versionseigenschaft im Tabellenverlauf, um die neuesten Änderungen für die inkrementelle Verarbeitung zu identifizieren.

Stellen Sie eine Verbindung zu Delta-Daten aus Azure Data Lake Storage her

  1. Wechseln Sie zu Daten>Datenquellen.

  2. Wählen Sie Datenquelle hinzufügen aus.

  3. Wählen Sie Azure Data Lake Delta-Tabellen aus.

    Dialogfeld zum Eingeben von Verbindungsdetails für Delta Lake.

  4. Geben Sie einen Datenquellenname und eine optionale Beschreibung ein. Der Name wird in nachgelagerten Prozessen referenziert und kann nicht geändert werden, nachdem die Datenquelle erstellt wurde.

  5. Wählen Sie eine der folgenden Optionen für Verbinden Sie Ihren Speicher.

    • Azure-Abonnement: Auswählen das Abonnement und dann die Ressourcengruppe und das Speicherkonto.
    • Azure-Ressource: Geben Sie die Ressourcen-ID ein.
  6. Wählen Sie optional aus, wenn Sie Daten aus einem Speicherkonto über einen privaten Azure-Link erfassen möchten und wählen Sie Privaten Link aktivieren. Weitere Informationen finden Sie unter Private Links.

  7. Wählen Sie den Namen des Containers, der den Ordner Ihrer Daten enthält, und klicken Sie auf Weiter.

  8. Navigieren Sie zu dem Ordner, der die Daten in Delta-Tabellen enthält, und wählen Sie ihn aus. Wählen Sie dann Weiter aus. Eine Liste mit verfügbaren Tabellen wird angezeigt.

  9. Wählen Sie die Tabellen aus, die Sie einschließen möchten.

  10. Für ausgewählte Tabellen, für die kein Primärschlüssel definiert wurde, wird Erforderlich unter Primärschlüssel angezeigt. Für jede dieser Tabellen:

    1. Wählen Sie Erforderlich. Der Bereich Tabelle bearbeiten wird angezeigt.
    2. Wählen Sie den Primärschlüssel. Der Primärschlüssel ist ein für die Tabelle eindeutiges Attribut. Damit ein Attribut ein gültiger Primärschlüssel ist, sollte es keine doppelten Werte, fehlenden Werte oder Nullwerte enthalten. Als Primärschlüssel werden String-, Integer- und GUID-Datentypattribute unterstützt.
    3. Wählen Sie Schließen, um den Bereich zu speichern und zu schließen.

    Dialogfeld mit der Anzeige Erforderlich für Primärschlüssel

  11. Um die Datenprofilerstellung für eine der Spalten zu aktivieren, wählen Sie die Anzahl der Spalten für die Tabelle aus. Die Seite Attribute verwalten wird angezeigt.

    Dialogfeld zur Auswahl der Datenprofilerstellung.

    1. Wählen Sie Datenprofilierung für die gesamte Tabelle oder für bestimmte Spalten aus. Standardmäßig ist keine Tabelle für die Datenprofilierung aktiviert.
    2. Wählen Sie Fertig aus.
  12. Wählen Sie Speichern. Die Seite Datenquellen öffnet sich und zeigt die neue Datenquelle im Status Wird aktualisiert an.

    Tipp

    Es gibt Status für Aufgaben und Prozesse. Die meisten Prozesse hängen von anderen Upstream-Prozessen ab, wie z. B. Datenquellen- und Datenprofilerstellungs-Aktualisierungen.

    Wählen Sie den Status aus, um den Bereich Fortschrittsdetails zu öffnen und den Fortschritt der Aufgabe oder des Prozesses anzuzeigen. Um den Auftrag abzubrechen, wählen Sie Auftrag abbrechen am unteren Rand des Bereichs.

    Bei jeder Aufgabe können sie Details anzeigen wählen, um mehr Fortschrittsinformationen zu erhalten, wie Verarbeitungszeit, letztes Verarbeitungsdatum und alle zutreffenden Fehler und Warnungen im Zusammenhang mit der Aufgabe oder dem Prozess. Wählen Sie Systemstatus anzeigen am unteren Rand des Bereichs aus, um andere Prozesse im System anzuzeigen.

Das Laden von Daten kann einige Zeit in Anspruch nehmen. Nach einer erfolgreichen Aktualisierung können die aufgenommenen Daten von der Seite Tabellen überprüft werden.

Schemaänderungen verwalten

Wenn eine Spalte zum Schema einer Datenquelle eines Delta-Ordners hinzugefügt oder daraus entfernt wird, führt das System eine vollständige Aktualisierung der Daten durch. Vollständige Aktualisierungen zur Verarbeitung aller Daten dauern länger als inkrementelle Aktualisierungen.

Hinzufügen einer Spalte

Wenn eine Spalte zur Datenquelle hinzugefügt wird, werden die Informationen automatisch an die Daten in Customer Insights - Data angehängt, sobald eine Aktualisierung erfolgt. Wenn für die Tabelle bereits eine Vereinheitlichung konfiguriert ist, muss die neue Spalte dem Vereinheitlichungsprozess hinzugefügt werden.

  1. Wählen Sie aus dem Kundendaten-Schritt Tabellen und Spalten auswählen und dann die neue Spalte aus.

  2. Stellen Sie im Schritt Vereinheitlichte Datenansicht sicher, dass die Spalte nicht aus dem Kundenprofil ausgeschlossen wird. Wählen Sie Ausgeschlossen aus, und fügen Sie die Spalte erneut hinzu.

  3. Wählen Sie im Schritt Aktualisierungen des einheitlichen Profils ausführen und dann Kundenprofile und Abhängigkeiten zusammenführen aus.

Spalte ändern oder entfernen

Wenn eine Spalte aus einer Datenquelle entfernt wird, prüft das System in anderen Prozessen auf Abhängigkeiten. Wenn in den Spalten eine Abhängigkeit besteht, stoppt das System die Aktualisierung und bietet einen Fehler, der angibt, dass die Abhängigkeiten entfernt werden müssen. Diese Abhängigkeiten werden in einer Benachrichtigung angezeigt, damit Sie sie leichter finden und entfernen können.

Schemaänderung validieren

Gehen Sie nach der Aktualisierung der Datenquelle zur Seite Daten>Tabellen. Wählen Sie die Tabelle für die Datenquelle aus und überprüfen Sie das Schema.

Delta Lake-Zeitreise und -Datenaktualisierungen

Delta Lake-Zeitreise ist die Möglichkeit, Tabellenversionen basierend auf einem Zeitstempel oder einer Versionsnummer abzufragen. Änderungen an Delta-Ordnern werden versioniert und Customer Insights - Data verwendet die Delta-Ordnerversionen, um den Überblick darüber zu behalten, welche Daten verarbeitet werden sollen. Bei einer regulären Deltatabellenaktualisierung werden Daten aus allen Datentabellenversionen seit der letzten Aktualisierung abgerufen. Solange alle Versionen vorhanden sind, kann Customer Insights - Data nur die geänderten Elemente verarbeiten und schnellere Ergebnisse liefern. Erfahren Sie mehr über Zeitreisen.

Wenn beispielsweise „Customer Insights – Daten“ zuletzt mit Version 23 Ihrer Delta-Ordnerdaten synchronisiert wurde, wird erwartet, dass Version 23 und möglicherweise nachfolgende Versionen verfügbar sind. Wenn die erwarteten Datenversionen nicht verfügbar sind, schlägt die Datensynchronisierung fehl und erfordert eine manuelle vollständige Datenaktualisierung. Die Datensynchronisierung kann fehlschlagen, wenn Ihre Delta-Ordnerdaten gelöscht und dann neu erstellt wurden. Oder wenn Customer Insights - Data während der Weiterentwicklung der Versionen über einen längeren Zeitraum keine Verbindung zu Ihren Delta-Ordnern herstellen konnte.

Um die Notwendigkeit einer vollständigen Datenaktualisierung zu vermeiden, empfehlen wir Ihnen, einen angemessenen Verlaufsrückstand beizubehalten, z. B. 15 Tage.

Manuell eine vollständige Datenaktualisierung für einen Delta-Tabellenordner durchführen

Bei einer vollständigen Aktualisierung werden alle Daten aus einer Tabelle im Delta-Format übernommen und aus der Delta-Tabellenversion Null (0) neu geladen. Änderungen am Delta-Ordnerschema lösen eine automatische vollständige Aktualisierung aus. Um eine vollständige Aktualisierung manuell auszulösen, führen Sie die folgenden Schritte aus.

  1. Wechseln Sie zu Daten>Datenquellen.

  2. Wählen Sie die Datenquelle Azure Data Lake Delta-Tabellen aus.

  3. Wählen Sie die Tabelle aus, die Sie aktualisieren möchten. Der Bereich Tabelle bearbeiten wird angezeigt.

    Bearbeiten Sie den Tabellenbereich, um eine einmalige vollständige Aktualisierung auszuwählen.

  4. Wählen Sie Einmalige vollständige Aktualisierung ausführen aus.

  5. Wählen Sie Speichern aus, um die Aktualisierung auszuführen. Die Seite Datenquellen öffnet sich und zeigt die neue Datenquelle im Status Wird aktualisiert an, aber nur die ausgewählte Tabelle wird aktualisiert.

  6. Wiederholen Sie den Vorgang ggf. für weitere Tabellen.

Datensynchronisierungsfehler

Die Datensynchronisierung kann fehlschlagen, wenn Ihre Delta-Ordnerdaten gelöscht und dann neu erstellt wurden. Oder wenn Customer Insights - Data während der Weiterentwicklung der Versionen über einen längeren Zeitraum keine Verbindung zu Ihren Delta-Ordnern herstellen konnte. Um die Auswirkungen zu minimieren, wenn ein zeitweiliger Ausfall der Datenpipeline eine vollständige Aktualisierung erforderlich macht, empfehlen wir Ihnen, einen angemessenen Verlaufsrückstand beizubehalten, z. B. 15 Tage.

Nächste Schritte,