Installieren von Notebook-Abhängigkeiten

Sie können Python-Abhängigkeiten für serverlose Notebooks mithilfe des Seitenbereichs Umgebung installieren. In diesem Bereich können Sie die Bibliotheksanforderungen eines Notebooks an einer einzigen Stelle bearbeiten, anzeigen und exportieren. Diese Abhängigkeiten können mithilfe einer Basisumgebung oder einzeln hinzugefügt werden.

Bereich für eine serverlose Umgebung

Informationen zu Aufgaben, die nichts mit Notebooks zu tun haben, finden Sie unter Konfigurieren von Umgebungen und Abhängigkeiten für Nicht-Notebookaufgaben.

Wichtig

Installieren Sie weder PySpark noch Bibliotheken, die PySpark als Abhängigkeit installieren, in Ihren serverlosen Notebooks. Andernfalls wird Ihre Sitzung mit einem Fehler beendet. In einem solchen Fall müssen Sie Ihre Umgebung zurücksetzen.

Konfigurieren einer Basisumgebung

Eine Basisumgebung ist eine als Arbeitsbereichsdatei oder auf einem Unity Catalog-Volume gespeicherte YAML-Datei, die zusätzliche Umgebungsabhängigkeiten angibt. Basisumgebungen können von mehreren Notebooks gemeinsam genutzt werden. So konfigurieren Sie eine Basisumgebung

  1. Erstellen Sie eine YAML-Datei, die Einstellungen für eine virtuelle Python-Umgebung definiert. Im folgenden Beispiel für YAML, das auf der Umgebungsspezifikation für MLflow-Projektebasiert, wird eine Basisumgebung mit einigen wenigen Bibliotheksabhängigkeiten definiert:

    client: "1"
    dependencies:
      - --index-url https://pypi.org/simple
      - -r "/Workspace/Shared/requirements.txt"
      - cowsay==6.1
    
  2. Laden Sie die YAML-Datei als Arbeitsbereichsdatei oder in ein Unity Catalog-Volume hoch. Weitere Informationen finden Sie unter Importieren einer Datei bzw. unter Hochladen von Dateien auf ein Unity Catalog-Volume.

  3. Klicken Sie rechts neben dem Notebook auf die Schaltfläche Umgebung, um den Bereich Umgebung zu erweitern. Diese Schaltfläche wird nur angezeigt, wenn ein Notebook mit serverlosem Computing verbunden ist.

  4. Geben Sie im Feld Basisumgebung den Pfad der hochgeladenen YAML-Datei ein, oder navigieren Sie zu der Datei, und wählen Sie sie aus.

  5. Klicken Sie auf Anwenden. Dadurch werden die Abhängigkeiten in der virtuellen Notebookumgebung installiert, und der Python-Prozess wird neu gestartet.

Benutzer können Abhängigkeiten einzeln installieren, um die in der Basisumgebung angegebenen Abhängigkeiten zu überschreiben.

Hinzufügen einzelner Abhängigkeiten

Abhängigkeiten für ein Notebook, das mit serverlosem Computing verbunden ist, können auch über die Registerkarte Abhängigkeiten des Bereichs Umgebung installiert werden:

  1. Klicken Sie rechts neben dem Notebook auf die Schaltfläche Umgebung, um den Bereich Umgebung zu erweitern. Diese Schaltfläche wird nur angezeigt, wenn ein Notebook mit serverlosem Computing verbunden ist.
  2. Klicken Sie im Abschnitt Abhängigkeiten auf Abhängigkeit hinzufügen, und geben Sie den Pfad der Bibliotheksabhängigkeit in das Feld ein. Sie können eine Abhängigkeit in einem beliebigen Format angeben, das in einer Datei vom Typ requirements.txt gültig ist.
  3. Klicken Sie auf Anwenden. Dadurch werden die Abhängigkeiten in der virtuellen Notebookumgebung installiert, und der Python-Prozess wird neu gestartet.

Hinweis

Bei einem Auftrag, der serverloses Computing verwendet, wird erst die Umgebungsspezifikation des Notebooks installiert und dann der Notebookcode ausgeführt. Dadurch müssen keine Abhängigkeiten hinzugefügt werden, wenn Notebooks als Aufträge geplant werden. Weitere Informationen finden Sie unter Konfigurieren von Umgebungen und Abhängigkeiten.

Anzeigen installierter Abhängigkeiten und pip-Protokolle

Um installierte Abhängigkeiten anzuzeigen, klicken Sie im Seitenbereich Umgebungen für ein Notebook auf Installiert. Sie können aber auch unten im Bereich auf pip-Protokolle klicken, um pip-Installationsprotokolle für die Notebookumgebung anzuzeigen.

Zurücksetzen der Umgebung

Wenn Ihr Notebook mit serverlosem Computing verbunden ist, speichert Databricks automatisch den Inhalt der virtuellen Umgebung des Notebooks zwischen. Das bedeutet, dass Sie die im Bereich Umgebung angegebenen Python-Abhängigkeiten in der Regel nicht neu installieren müssen, wenn Sie ein bereits vorhandenes Notebook öffnen, auch wenn es aufgrund von Inaktivität getrennt wurde.

Die Zwischenspeicherung virtueller Python-Umgebungen wird auch für Aufträge verwendet. Das bedeutet, dass nachfolgende Ausführungen von Aufträgen schneller sind, da die erforderlichen Abhängigkeiten bereits verfügbar sind.

Hinweis

Wenn Sie die Implementierung eines benutzerdefinierten Python-Pakets ändern, das in einem Auftrag im serverlosen Modus verwendet wird, müssen Sie dessen Versionsnummer auch für Aufträge aktualisieren, um die neueste Implementierung zu verwenden.

Um den Umgebungscache zu löschen und die Abhängigkeiten neu zu installieren, die im Bereich Umgebung eines Notebooks angegeben sind, das an serverloses Computing angefügt ist, klicken Sie auf den Pfeil neben Anwenden, und klicken Sie anschließend auf Umgebung zurücksetzen.

Hinweis

Setzen Sie die virtuelle Umgebung zurück, wenn Sie Pakete installieren, die das zentrale Notebook oder die Apache Spark-Umgebung unterbrechen oder ändern. Wenn Sie das Notebook vom serverlosen Computing trennen und erneut anfügen, wird nicht unbedingt der gesamte Umgebungscache gelöscht.

Konfigurieren von Umgebungen und Abhängigkeiten für Nicht-Notebookaufgaben

Für andere unterstützte Aufgabentypen, z. B. Python-Skripts, Python-Wheels oder dbt-Aufgaben, enthält eine Standardumgebung installierte Python-Bibliotheken. Die Liste der installierten Bibliotheken finden Sie im Abschnitt Installierte Python-Bibliotheken in den Versionshinweisen für die Databricks Runtime-Version, auf der Ihre Bereitstellung für serverloses Computing für Workflows basiert. Informationen zur aktuellen Databricks Runtime-Version, die für das serverlose Computing für Workflows verwendet wird, finden Sie in den Versionshinweisen zu serverlosem Computing. Wenn eine Aufgabe eine nicht installierte Python-Bibliothek erfordert, können Sie die Bibliothek aus Arbeitsbereichsdateien, Unity-Katalogvolumes oder öffentlichen Paketrepositorys installieren. So fügen Sie beim Erstellen oder Bearbeiten einer Aufgabe eine Bibliothek hinzu

  1. Wählen Sie im Dropdownmenü Umgebung und Bibliotheken neben der Standardumgebung das Symbol Symbol „Bearbeiten“ oder + Neue Umgebung hinzufügen aus.

    Bearbeiten der Standardumgebung

  2. Wählen Sie im Dialogfeld Umgebung konfigurieren die Option + Bibliothek hinzufügen aus.

  3. Wählen Sie im Dropdownmenü unter Bibliotheken den Typ der Abhängigkeit aus.

  4. Geben Sie im Textfeld Dateipfad den Pfad zur Bibliothek ein.

  • Für ein Python-Wheel in einer Arbeitsbereichsdatei sollte der Pfad absolut sein und mit /Workspace/ beginnen.

  • Für ein Python-Wheel in einem Unity Catalog-Volume sollte der Pfad /Volumes/<catalog>/<schema>/<volume>/<path>.whl lauten.

  • Wählen Sie für eine Datei requirements.txt die Option „PyPi“ aus, und geben Sie -r /path/to/requirements.txt ein.

    Hinzufügen von Aufgabenbibliotheken

  1. Wählen Sie Bestätigen oder + Bibliothek hinzufügen aus, um eine weitere Bibliothek hinzuzufügen.
  2. Wenn Sie eine Aufgabe hinzufügen, wählen Sie Aufgabe erstellen aus. Wenn Sie eine Aufgabe bearbeiten, wählen Sie Aufgabe speichern aus.