Konfigurieren und Ausführen der Datenqualitätsüberprüfung

Datenqualitätsscans überprüfen Ihre Datenressourcen basierend auf den angewendeten Datenqualitätsregeln und erzeugen eine Bewertung. Ihre Data Stewards können diese Bewertung verwenden, um die Datenintegrität zu bewerten und alle Probleme zu beheben, die die Qualität Ihrer Daten verringern könnten.

Voraussetzungen

  • Um Überprüfungen zur Datenqualitätsbewertung ausführen und planen zu können, müssen Ihre Benutzer in der Data Quality Steward-Rolle sein.
  • Derzeit kann das Microsoft Purview-Konto so festgelegt werden, dass öffentlicher Zugriff oder verwalteter VNET-Zugriff zugelassen wird, damit Datenqualitätsüberprüfungen ausgeführt werden können.

Lebenszyklus der Datenqualität

Die Überprüfung der Datenqualität ist der siebte Schritt des Lebenszyklus der Datenqualität für eine Datenressource. Die vorherigen Schritte sind:

  1. Weisen Sie Benutzern Data Quality Steward-Berechtigungen in Ihrem Datenkatalog zu, um alle Data Quality-Features zu verwenden.
  2. Registrieren und überprüfen Sie eine Datenquelle in Ihrem Microsoft Purview Data Map.
  3. Hinzufügen Ihrer Datenressource zu einem Datenprodukt
  4. Richten Sie eine Datenquellenverbindung ein, um Ihre Quelle für die Bewertung der Datenqualität vorzubereiten.
  5. Konfigurieren und Ausführen der Datenprofilerstellung für ein Medienobjekt in Ihrer Datenquelle.
    1. Wenn die Profilerstellung abgeschlossen ist, durchsuchen Sie die Ergebnisse für jede Spalte in der Datenressource, um die aktuelle Struktur und den aktuellen Status Ihrer Daten zu verstehen.
  6. Richten Sie Datenqualitätsregeln basierend auf den Profilerstellungsergebnissen ein, und wenden Sie sie auf Ihre Datenressource an.

Unterstützte Multi-Cloud-Datenquellen

  • Azure Data Lake Storage (ADLS Gen2)
    • Dateitypen: Delta Parquet und Parquet
  • Azure SQL-Datenbank
  • Die Fabric-Datenumgebung in OneLake umfasst Verknüpfungen und Spiegelungsdaten. Die Data Quality-Überprüfung wird nur für Lakehouse-Deltatabellen und Parquet-Dateien unterstützt.
    • Spiegelungsdatenbestand: CosmosDB, Snowflake, Azure SQL
    • Verknüpfungsdatenbestand: AWS S3, GCS, AdlsG2 und Dataverse
  • Azure Synapse serverlos und Data Warehouse
  • Azure Databricks Unity Catalog
  • Schneeflocke
  • Google Big Query (private Vorschau)

Wichtig

Data Quality für Parquet-Dateien ist so konzipiert, dass Folgendes unterstützt wird:

  1. Ein Verzeichnis mit Parquet-Part-Datei. Beispiel: ./Sales/{Parquet Part Files}. Der vollqualifizierte Name muss folgen https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}. Stellen Sie sicher, dass keine {n}-Muster in der Verzeichnis-/Unterverzeichnisstruktur vorhanden sind, sondern ein direkter FQN sein muss, der zu {SparkPartitions} führt.
  2. Ein Verzeichnis mit partitionierten Parquet-Dateien, partitioniert nach Spalten innerhalb des Datasets, z. B. nach Jahr und Monat partitionierte Verkaufsdaten. Beispiel: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

Beide wichtigen Szenarien, die ein konsistentes Parquet-Datasetschema darstellen, werden unterstützt.
Einschränkung: Es ist nicht für N beliebige Hierarchien von Verzeichnissen mit Parquet-Dateien konzipiert oder wird nicht unterstützt. Wir empfehlen dem Kunden, Daten in (1) oder (2) konstruierter Struktur darzustellen.

Unterstützte Authentifizierungsmethoden

Derzeit kann Microsoft Purview nur Überprüfungen zur Datenqualität mit verwalteter Identität als Authentifizierungsoption ausführen. Data Quality-Dienste werden unter Apache Spark 3.4 und Delta Lake 2.4 ausgeführt. Weitere Informationen zu unterstützten Regionen finden Sie unter Übersicht über die Datenqualität.

Wichtig

Wenn das Schema für die Datenquelle aktualisiert wird, muss die Datenzuordnungsüberprüfung erneut ausgeführt werden, bevor eine Datenqualitätsüberprüfung ausgeführt wird.

Ausführen einer Datenqualitätsüberprüfung

  1. Konfigurieren Sie eine Datenquellenverbindung mit den Ressourcen, die Sie auf Datenqualität überprüfen, sofern Sie sie noch nicht erstellt haben.

  2. Wählen Sie in Microsoft Purview Data Catalog das Menü Integritätsverwaltung und das Untermenü Datenqualität aus.

  3. Wählen Sie in der Liste eine Governancedomäne aus.

    Screenshot einer Governancedomäne und eines Datenprodukts.

  4. Wählen Sie ein Datenprodukt aus, um die Datenqualität der mit diesem Produkt verknüpften Datenressourcen zu bewerten.

    Screenshot: Auswählen der Datenressource des Datenprodukts

  5. Wenn Sie das Datenprodukt auswählen, gelangen Sie zur Übersichtsseite der Datenqualität. Sie können die vorhandenen Data Quality-Regeln durchsuchen und neue Regeln hinzufügen, indem Sie auf dieser Seite das Menü Regeln auswählen. Sie können das Schema der Datenressource durchsuchen, indem Sie auf dieser Seite das Menü Schema auswählen.

    Screenshot der Übersichtsseite für die Datenqualitätsüberprüfung.

  6. Durchsuchen Sie die Regeln, die der Überprüfung für die ausgewählten Ressourcen bereits hinzugefügt wurden, und schalten Sie sie in der Spalte Status ein oder aus.

    Screenshot der Seite

  7. Führen Sie die Qualitätsüberprüfung aus, indem Sie auf der Übersichtsseite die Schaltfläche Qualitätsüberprüfung ausführen auswählen.

    Screenshot der Übersichtsseite für die Datenqualität mit hervorgehobener Schaltfläche

  8. Während die Überprüfung ausgeführt wird, können Sie den Fortschritt auf der Seite zur Überwachung der Datenqualität in der Governancedomäne nachverfolgen.

Planen von Datenqualitätsüberprüfungen

Obwohl Datenqualitätsscans ad-hoc ausgeführt werden können, indem Sie die Schaltfläche Qualitätsüberprüfung ausführen auswählen, ist es in Produktionsszenarien wahrscheinlich, dass die Quelldaten ständig aktualisiert werden. Daher möchten wir sicherstellen, dass wir die Datenqualität regelmäßig überwachen, um Probleme zu erkennen. Um es uns zu ermöglichen, regelmäßig aktualisierte Qualitätsscans zu verwalten, können wir den Scanvorgang automatisieren.

  1. Wählen Sie in Microsoft Purview Data Catalog das Menü Integritätsverwaltung und das Untermenü Datenqualität aus.

  2. Wählen Sie in der Liste eine Governancedomäne aus.

  3. Wählen Sie rechts auf der Seite die Schaltfläche Verwalten und dann Geplante Überprüfungen aus.

    Screenshot der Datenqualitätsseite für eine Governancedomäne mit hervorgehobener Schaltfläche

  4. Füllen Sie das Formular auf der Seite Geplante Überprüfung erstellen aus. Fügen Sie einen Namen und eine Beschreibung für die Quelle hinzu, für die Sie den Zeitplan einrichten.

    Screenshot der Registerkarte

  5. Wählen Sie Weiter.

  6. Wählen Sie auf der Registerkarte Bereich einzelne Datenprodukte und Ressourcen oder alle Datenprodukte und Datenressourcen der gesamten Governancedomäne aus.

    Screenshot der Registerkarte

  7. Wählen Sie Weiter.

  8. Legen Sie einen Zeitplan basierend auf Ihren Einstellungen fest, und wählen Sie Weiter aus.

    Screenshot der Registerkarte

  9. Wählen Sie auf der Registerkarte Überprüfen die Option Speichern (oder Speichern und sofort ausführen) aus, um die Planung der Überprüfung der Datenqualitätsbewertung abzuschließen.

    Screenshot der Registerkarte

  10. Sie können geplante Überprüfungen auf der Seite Data Quality-Auftragsüberwachung auf der Registerkarte Scans überwachen.

Löschen vorheriger Datenqualitätsüberprüfungen

  1. Wählen Sie in Microsoft Purview Data Catalog das Menü Integritätsverwaltung und das Untermenü Datenqualität aus.
  2. Wählen Sie in der Liste eine Governancedomäne aus.
  3. Klicken Sie oben auf der Seite auf die Schaltfläche mit den Auslassungspunkten ("...").
  4. Wählen Sie Datenqualitätsdaten löschen aus, um den Verlauf der Datenqualitätsausführungen zu löschen.

Hinweis

Es wird empfohlen, dieses Löschen nur für Testläufe, fehlerhafte Datenqualitätsausführungen oder für den Fall zu verwenden, dass Sie eine Datenressource aus einem Datenprodukt entfernen.

Wenn Sie eine Datenressource aus einem Datenprodukt entfernen möchten und diese Datenressource über eine Datenqualitätsbewertung verfügt, müssen Sie zuerst die Datenqualitätsbewertung löschen und dann die Datenressource aus dem Datenprodukt entfernen.

Wichtig

Zum Erstellen einer Parquet-Datei müssen Sie den Datentyp in Parquet ändern. Sehen Sie sich den folgenden Screenshot an:

Wie im folgenden Screenshot gezeigt, ändern Sie den Standarddatenobjekttyp delta in Parquet , bevor Sie den Data Quality-Überprüfungsauftrag konfigurieren.

Screenshot der Auswahl des Ressourcentyps.

Nächste Schritte