Installera notebook-beroenden
Du kan installera Python-beroenden för serverlösa notebook-filer med hjälp av panelen På miljösidan . Den här panelen innehåller en enda plats där du kan redigera, visa och exportera en notebook-fils bibliotekskrav. Dessa beroenden kan läggas till med hjälp av en basmiljö eller individuellt.
Information om uppgifter som inte är notebook-uppgifter finns i Konfigurera miljöer och beroenden för uppgifter som inte är notebook-uppgifter.
Viktigt!
Installera inte PySpark eller något bibliotek som installerar PySpark som ett beroende av dina serverlösa notebook-filer. Om du gör det stoppas sessionen och det resulterar i ett fel. Om detta inträffar återställer du din miljö.
Konfigurera en basmiljö
En basmiljö är en YAML-fil som lagras som en arbetsytefil eller på en Unity Catalog-volym som anger ytterligare miljöberoenden. Basmiljöer kan delas mellan notebook-filer. Så här konfigurerar du en basmiljö:
Skapa en YAML-fil som definierar inställningar för en virtuell Python-miljö. I följande exempel definierar YAML, som baseras på miljöspecifikationen för MLflow-projekt, en basmiljö med några biblioteksberoenden:
client: "1" dependencies: - --index-url https://pypi.org/simple - -r "/Workspace/Shared/requirements.txt" - cowsay==6.1
Ladda upp YAML-filen som en arbetsytefil eller till en Unity Catalog-volym. Se Importera en fil eller Ladda upp filer till en Unity Catalog-volym.
Till höger om anteckningsboken klickar du på knappen för att expandera panelen Miljö . Den här knappen visas bara när en notebook-fil är ansluten till serverlös beräkning.
I fältet Basmiljö anger du sökvägen till den uppladdade YAML-filen eller navigerar till den och väljer den.
Klicka på Använd. Detta installerar beroendena i den virtuella notebook-miljön och startar om Python-processen.
Användare kan åsidosätta de beroenden som anges i basmiljön genom att installera beroenden individuellt.
Lägga till beroenden individuellt
Du kan också installera beroenden på en notebook-fil som är ansluten till serverlös beräkning med hjälp av fliken Beroenden i panelen Miljö :
- Till höger om anteckningsboken klickar du på knappen för att expandera panelen Miljö . Den här knappen visas bara när en notebook-fil är ansluten till serverlös beräkning.
- I avsnittet Beroenden klickar du på Lägg till beroende och anger sökvägen till biblioteksberoendet i fältet . Du kan ange ett beroende i valfritt format som är giltigt i en requirements.txt fil.
- Klicka på Använd. Detta installerar beroendena i den virtuella notebook-miljön och startar om Python-processen.
Kommentar
Ett jobb med serverlös beräkning installerar miljöspecifikationen för notebook-filen innan du kör notebook-koden. Det innebär att du inte behöver lägga till beroenden när du schemalägger notebook-filer som jobb. Se Konfigurera miljöer och beroenden.
Visa installerade beroenden och pip-loggar
Om du vill visa installerade beroenden klickar du på Installerad på panelen Miljöer för en notebook-fil. Pip-installationsloggar för notebook-miljön är också tillgängliga genom att klicka på Pip-loggar längst ned i panelen.
Återställa miljön
Om notebook-filen är ansluten till serverlös beräkning cachelagrar Databricks automatiskt innehållet i notebook-filens virtuella miljö. Det innebär att du vanligtvis inte behöver installera om Python-beroenden som anges i panelen Miljö när du öppnar en befintlig notebook-fil, även om den har kopplats från på grund av inaktivitet.
Cachelagring av virtuell Python-miljö gäller även för jobb. Det innebär att efterföljande körningar av jobb går snabbare eftersom nödvändiga beroenden redan är tillgängliga.
Kommentar
Om du ändrar implementeringen av ett anpassat Python-paket som används i ett jobb på serverlös måste du också uppdatera versionsnumret för jobb för att hämta den senaste implementeringen.
Om du vill rensa miljöcachen och utföra en ny installation av de beroenden som anges i panelen Miljö i en notebook-fil som är kopplad till serverlös beräkning klickar du på pilen bredvid Tillämpa och klickar sedan på Återställ miljö.
Kommentar
Återställ den virtuella miljön om du installerar paket som bryter eller ändrar kärnanteckningsboken eller Apache Spark-miljön. Att koppla från notebook-filen från serverlös beräkning och koppla om den rensar inte nödvändigtvis hela miljöcachen.
Konfigurera miljöer och beroenden för uppgifter som inte är notebook-uppgifter
För andra aktivitetstyper som stöds, till exempel Python-skript, Python-hjul eller dbt-uppgifter, innehåller en standardmiljö installerade Python-bibliotek. Om du vill se listan över installerade bibliotek läser du avsnittet Installerade Python-bibliotek i viktig information för Databricks Runtime-versionen som din serverlösa beräkning för arbetsflödesdistribution baseras på. Information om hur du ser den aktuella Databricks Runtime-versionen som används av serverlös beräkning för arbetsflöden finns i Viktig information om serverlös beräkning. Om en uppgift kräver ett Python-bibliotek som inte är installerat kan du installera biblioteket från arbetsytefiler, Unity Catalog-volymer eller offentliga paketlagringsplatser. Så här lägger du till ett bibliotek när du skapar eller redigerar en uppgift:
I listrutan Miljö och bibliotek klickar du bredvid standardmiljön eller klickar på + Lägg till ny miljö.
I dialogrutan Konfigurera miljö klickar du på + Lägg till bibliotek.
Välj typ av beroende på den nedrullningsbara menyn under Bibliotek.
I textrutan Filsökväg anger du sökvägen till biblioteket.
För ett Python-hjul i en arbetsytefil bör sökvägen vara absolut och börja med
/Workspace/
.För ett Python-hjul i en Unity-katalogvolym ska sökvägen vara
/Volumes/<catalog>/<schema>/<volume>/<path>.whl
.För en
requirements.txt
fil väljer du PyPi och anger-r /path/to/requirements.txt
.
- Klicka på Bekräfta eller + Lägg till bibliotek för att lägga till ett annat bibliotek.
- Om du lägger till en aktivitet klickar du på Skapa aktivitet. Om du redigerar en uppgift klickar du på Spara uppgift.