Durchsuchen von Daten in Ihrer gespiegelten Datenbank mit Notebooks

Sie können die aus Ihrer gespiegelten Datenbank replizierten Daten mit Spark-Abfragen in Notebooks untersuchen.

Notebooks sind ein leistungsstarkes Code-Element, mit dem Sie Apache Spark-Jobs und Experimente zum maschinellen Lernen mit Ihren Daten entwickeln können. Sie können Notizbücher im Fabric Lakehouse verwenden, um Ihre gespiegelten Tabellen zu erkunden.

Voraussetzungen

Eine Verknüpfung erstellen

Sie müssen zunächst eine Verknüpfung von Ihren gespiegelten Tabellen in das Lakehouse erstellen und dann Notebooks mit Spark-Abfragen in Ihrem Lakehouse erstellen.

  1. Öffnen Sie im Fabric-Portal Datentechnik.

  2. Wenn Sie noch kein Lakehouse erstellt haben, wählen Sie Lakehouse aus, und erstellen Sie ein neues Lakehouse, indem Sie ihm einen Namen geben.

  3. Wählen Sie Daten abrufen - >Neue Verknüpfung aus.

  4. Wählen Sie Microsoft OneLake aus.

  5. Sie können alle Ihre gespiegelte Datenbanken im Fabric-Arbeitsbereich anzeigen.

  6. Wählen Sie die Spiegeldatenbank aus, die Sie Ihrem Lakehouse als Verknüpfung hinzufügen möchten.

  7. Wählen Sie die gewünschten Tabellen aus der Spiegeldatenbank aus.

  8. Wählen Sie Weiter und dann Erstellen aus.

  9. Im Explorer können Sie nun ausgewählte Tabellendaten in Ihrem Lakehouse sehen. Screenshot des Fabric-Portals mit dem Lakehouse-Explorer mit den gespiegelten Datenbanktabellen und -daten.

    Tipp

    Sie können andere Daten direkt in Lakehouse hinzufügen oder Verknüpfungen wie S3, ADLS Gen2 mitbringen. Sie können zum SQL-Analyseendpunkt des Lakehouse navigieren und die Daten über alle diese Quellen hinweg mit gespiegelten Daten nahtlos verknüpfen.

  10. Um diese Daten in Spark zu untersuchen, wählen Sie die ... Punkte neben einer beliebigen Tabelle. Wählen Sie Neues Notebook oder Vorhandenes Notebook, um mit der Analyse zu beginnen. Screenshot aus dem Fabric-Portal, der das Kontextmenü zum Öffnen einer gespiegelten Datenbanktabelle in einem Notebook zeigt.

  11. Das Notebook wird automatisch geöffnet und der DataFrame mit einer SELECT ... LIMIT 1000 Spark SQL-Abfrage geladen.

    • Neue Notebooks können bis zu zwei Minuten benötigen, bis sie vollständig geladen werden. Sie können diese Verzögerung vermeiden, indem Sie ein vorhandenes Notebook mit einer aktiven Sitzung verwenden. Screenshot des Fabric-Portals mit Daten aus einer gespiegelten Datenbanktabelle in einem neuen Notebook mit einer Spark SQL-Abfrage.