Migrace na Databricks Connect pro Python

Tento článek popisuje, jak migrovat z Databricks Connect pro Databricks Runtime 12.2 LTS a níže do Databricks Connect pro Databricks Runtime 13.3 LTS a novější pro Python. Databricks Connect umožňuje připojit k clusterům Azure Databricks oblíbené prostředí IDEs, servery poznámkových bloků a vlastní aplikace. Podívejte se, co je Databricks Connect? Informace o verzi Scala tohoto článku najdete v tématu Migrace na Databricks Connect pro Scala.

Poznámka:

Než začnete používat Databricks Connect, musíte nastavit klienta Databricks Connect.

Podle těchto pokynů migrujte stávající projekt kódu Pythonu nebo programovací prostředí z Databricks Connect pro Databricks Runtime 12.2 LTS a níže do Databricks Connect pro Databricks Runtime 13.3 LTS a vyšší.

  1. Nainstalujte správnou verzi Pythonu uvedenou v požadavcích na instalaci tak, aby odpovídala vašemu clusteru Azure Databricks, pokud ještě není místně nainstalovaná.

  2. Upgradujte virtuální prostředí Pythonu tak, aby v případě potřeby používalo správnou verzi Pythonu, aby odpovídalo vašemu clusteru. Pokyny najdete v dokumentaci poskytovatele virtuálního prostředí.

  3. Po aktivaci virtuálního prostředí odinstalujte PySpark z vašeho virtuálního prostředí:

    pip3 uninstall pyspark
    
  4. S aktivovaným virtuálním prostředím odinstalujte Databricks Connect pro Databricks Runtime 12.2 LTS a níže:

    pip3 uninstall databricks-connect
    
  5. S aktivovaným virtuálním prostředím nainstalujte Databricks Connect pro Databricks Runtime 13.3 LTS a vyšší:

    pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
    

    Poznámka:

    Databricks doporučuje, abyste místo něj databricks-connect==X.Y.* databricks-connect=X.Ypřipojili notaci dot-asterisk, abyste měli jistotu, že je nainstalovaný nejnovější balíček. I když to není požadavek, pomůže vám to zajistit, abyste pro tento cluster mohli používat nejnovější podporované funkce.

  6. Aktualizujte kód Pythonu spark tak, aby inicializoval proměnnou (což představuje instanci DatabricksSession třídy, podobně jako SparkSession v PySpark). Příklady kódu najdete v tématu Instalace Databricks Connect pro Python.

  7. Migrujte rozhraní RDD API tak, aby používala rozhraní API datového rámce, a migrujte SparkContext je, abyste mohli používat alternativy.

Nastavení konfigurací Hadoopu

Na klientovi můžete nastavit konfigurace Systému Hadoop pomocí spark.conf.set rozhraní API, které platí pro operace SQL a DataFrame. Konfigurace Hadoopu sparkContext nastavené na zařízení musí být nastaveny v konfiguraci clusteru nebo pomocí poznámkového bloku. Důvodem je to, že konfigurace nastavené sparkContext nejsou svázané s uživatelskými relacemi, ale vztahují se na celý cluster.