Migrace na Databricks Connect pro Python
Tento článek popisuje, jak migrovat z Databricks Connect pro Databricks Runtime 12.2 LTS a níže do Databricks Connect pro Databricks Runtime 13.3 LTS a novější pro Python. Databricks Connect umožňuje připojit k clusterům Azure Databricks oblíbené prostředí IDEs, servery poznámkových bloků a vlastní aplikace. Podívejte se, co je Databricks Connect? Informace o verzi Scala tohoto článku najdete v tématu Migrace na Databricks Connect pro Scala.
Poznámka:
Než začnete používat Databricks Connect, musíte nastavit klienta Databricks Connect.
Podle těchto pokynů migrujte stávající projekt kódu Pythonu nebo programovací prostředí z Databricks Connect pro Databricks Runtime 12.2 LTS a níže do Databricks Connect pro Databricks Runtime 13.3 LTS a vyšší.
Nainstalujte správnou verzi Pythonu uvedenou v požadavcích na instalaci tak, aby odpovídala vašemu clusteru Azure Databricks, pokud ještě není místně nainstalovaná.
Upgradujte virtuální prostředí Pythonu tak, aby v případě potřeby používalo správnou verzi Pythonu, aby odpovídalo vašemu clusteru. Pokyny najdete v dokumentaci poskytovatele virtuálního prostředí.
Po aktivaci virtuálního prostředí odinstalujte PySpark z vašeho virtuálního prostředí:
pip3 uninstall pyspark
S aktivovaným virtuálním prostředím odinstalujte Databricks Connect pro Databricks Runtime 12.2 LTS a níže:
pip3 uninstall databricks-connect
S aktivovaným virtuálním prostředím nainstalujte Databricks Connect pro Databricks Runtime 13.3 LTS a vyšší:
pip3 install --upgrade "databricks-connect==14.0.*" # Or X.Y.* to match your cluster version.
Poznámka:
Databricks doporučuje, abyste místo něj
databricks-connect==X.Y.*
databricks-connect=X.Y
připojili notaci dot-asterisk, abyste měli jistotu, že je nainstalovaný nejnovější balíček. I když to není požadavek, pomůže vám to zajistit, abyste pro tento cluster mohli používat nejnovější podporované funkce.Aktualizujte kód Pythonu
spark
tak, aby inicializoval proměnnou (což představuje instanciDatabricksSession
třídy, podobně jakoSparkSession
v PySpark). Příklady kódu najdete v tématu Instalace Databricks Connect pro Python.Migrujte rozhraní RDD API tak, aby používala rozhraní API datového rámce, a migrujte
SparkContext
je, abyste mohli používat alternativy.
Nastavení konfigurací Hadoopu
Na klientovi můžete nastavit konfigurace Systému Hadoop pomocí spark.conf.set
rozhraní API, které platí pro operace SQL a DataFrame. Konfigurace Hadoopu sparkContext
nastavené na zařízení musí být nastaveny v konfiguraci clusteru nebo pomocí poznámkového bloku. Důvodem je to, že konfigurace nastavené sparkContext
nejsou svázané s uživatelskými relacemi, ale vztahují se na celý cluster.