Was sind Azure Databricks-Reinräume?

Wichtig

Dieses Feature befindet sich in der Public Preview. Wenden Sie sich an Ihren Azure Databricks-Ansprechpartner, um Zugriff anzufordern.

In diesem Artikel werden Reinräume vorgestellt – ein Feature von Azure Databricks, das Delta Sharing und serverloses Computing verwendet, um eine sichere und datenschutzfreundliche Umgebung bereitzustellen, in der mehrere Parteien gemeinsam an vertraulichen Unternehmensdaten arbeiten können, ohne direkten Zugriff auf die Daten der anderen Partei zu haben.

Anforderungen

Für die Verwendung von Reinräumen gelten folgende Voraussetzungen:

  • Sie müssen sich für die Public Preview registriert haben und dafür genehmigt worden sein. Wenden Sie sich an Ihr Azure Databricks-Kontoteam, um Zugriff anzufordern.
  • Sie müssen über ein Konto verfügen, das für serverloses Computing aktiviert ist. Weitere Informationen finden Sie unter Aktivieren des serverlosen Computings.
  • Sie müssen über einen Arbeitsbereich verfügen, der für Unity Catalog aktiviert ist. Weitere Informationen finden Sie unter Aktivieren eines Arbeitsbereichs für Unity Catalog.

Funktionsweise von Reinräumen

Durch die Erstellung eines Reinraums erstellen Sie Folgendes:

  • Ein sicherungsfähiges Reinraumobjekt in Ihrem Unity Catalog-Metastore
  • Den „zentralen“ Reinraum, bei dem es sich um eine isolierte kurzlebige Umgebung handelt, die von Databricks verwaltet wird
  • Ein sicherungsfähiges Reinraumobjekt im Unity Catalog-Metastore Ihres Projektmitarbeiters

Tabellen, Volumes (nicht tabellarische Daten) und Notebooks, die die Projektmitarbeiter im Reinraum teilen, werden mithilfe von Delta Sharing nur für den zentralen Reinraum freigegeben.

Projektmitarbeiter können die Daten in Tabellen und Volumes anderer Projektmitarbeiter nicht sehen. Sie sehen jedoch Spaltennamen und -typen und können genehmigten Notebookcode für die Tabellen und Volumes ausführen. Der Notebookcode wird im zentralen Reinraum ausgeführt.

Einfache Architektur und Abläufe eines Reinraums

Wie stellen Reinräume eine Umgebung ohne Vertrauensstellung sicher?

Databricks-Reinräume basieren auf dem Modell „Keine Vertrauensstellung“. Alle Projektmitarbeiter in einem Reinraum ohne Vertrauensstellung haben die gleichen Berechtigungen, auch der Ersteller des Reinraums. Reinräume sind dafür konzipiert, die Ausführung von nicht autorisiertem Code und die nicht autorisierte Freigabe von Daten zu verhindern. Beispielsweise müssen alle Projektmitarbeiter ein Notebook genehmigen, bevor es ausgeführt werden kann. Diese Vertrauensstellung wird implizit erzwungen, indem verhindert wird, dass ein Projektmitarbeiter Notebooks ausführt, die er selbst erstellt hat: Sie können nur Notebooks ausführen, die vom anderen Projektmitarbeiter erstellt wurden.

Zusätzliche Schutzmaßnahmen oder Einschränkungen

Die folgenden Schutzmaßnahmen werden zusätzlich zum oben genannten impliziten Genehmigungsprozess für Notebooks angewendet:

  • Nachdem ein Reinraum erstellt wurde, wird er gesperrt, damit ihm keine neuen Projektmitarbeiter beitreten können.

  • Wenn ein Projektmitarbeiter den Reinraum löscht, wird der zentrale Reinraum ungültig, und kein Benutzer kann Aufgaben im Reinraum ausführen.

  • Während der Public Preview ist jeder Reinraum auf zwei Projektmitarbeiter beschränkt.

  • Sie können den Reinraum nicht umbenennen.

    Der Name des Reinraums muss im Metastore jedes Projektmitarbeiters eindeutig sein, damit alle Projektmitarbeiter eindeutig auf denselben Reinraum verweisen können.

  • Kommentare zum sicherungsfähigen Reinraum im Arbeitsbereich der einzelnen Projektmitarbeiter werden nicht an andere Projektmitarbeiter weitergegeben.

Welche Daten werden für andere Projektmitarbeiter freigegeben?

  • Der Name des Reinraums
  • Die Cloud und Region des zentralen Reinraums
  • Der Name Ihrer Organisation (ein beliebiger von Ihnen ausgewählter Name)
  • Der Freigabebezeichner für Ihren Unity Catalog-Metastore (globale Metastore-ID)
  • Aliase von freigegebenen Tabellen oder Volumes
  • Spaltenmetadaten (Spaltenname oder Spaltenalias und -typ)
  • Notebooks (schreibgeschützt)
  • Systemtabelle für Reinraumereignisse
  • Ausführungsverlauf, einschließlich:
    • Name des ausgeführten Notebooks
    • Projektmitarbeiter, von dem das Notebook ausgeführt wurde (nicht der Benutzer)
    • Status des ausgeführten Notebooks
    • Startzeit des ausgeführten Notebooks

Welche Daten werden für den zentralen Reinraum freigegeben?

  • Alle der im vorherigen Abschnitt aufgeführten Informationen

  • Schreibgeschützte Tabellen, Volumes und Notebooks

    Tabellen und Volumes werden im Metastore des zentralen Reinraums mit allen bereitgestellten Aliasen registriert. Tabellen, Volumes und Notebooks werden während des gesamten Lebenszyklus des Reinraums freigegeben.

Begrenzungen

Während der Public Preview gelten die folgenden Einschränkungen:

  • Das Deaktivieren der Internetverbindung, um zu verhindern, dass schädlicher Code Daten an einen externen Speicherort exfiltriert, wird in Reinräumen nicht unterstützt.
  • In der erforderlichen Databricks Runtime-Version sind keine Scala-Bibliotheken für Dienstanmeldeinformationsbibliotheken enthalten.

Erste Schritte