Migrowanie do usługi Databricks Connect dla języka Python

W tym artykule opisano sposób migracji z usługi Databricks Connect dla środowiska Databricks Runtime 12.2 LTS i poniżej do usługi Databricks Connect dla środowiska Databricks Runtime 13.3 LTS i nowszego dla języka Python. Usługa Databricks Connect umożliwia łączenie popularnych środowisk IDE, serwerów notesów i aplikacji niestandardowych z klastrami usługi Azure Databricks. Zobacz Co to jest usługa Databricks Connect?. Aby zapoznać się z wersją tego artykułu, zobacz Migrowanie do usługi Databricks Connect dla języka Scala.

Uwaga

Przed rozpoczęciem korzystania z usługi Databricks Connect należy skonfigurować klienta Usługi Databricks Connect.

Postępuj zgodnie z tymi wytycznymi, aby przeprowadzić migrację istniejącego projektu kodu w języku Python lub środowiska kodowania z usługi Databricks Connect dla środowiska Databricks Runtime 12.2 LTS i nowszych do usługi Databricks Connect dla środowiska Databricks Runtime 13.3 LTS lub nowszego.

  1. Zainstaluj poprawną wersję języka Python zgodnie z wymaganiami dotyczącymi instalacji, aby dopasować klaster usługi Azure Databricks, jeśli nie został jeszcze zainstalowany lokalnie.

  2. Uaktualnij środowisko wirtualne języka Python, aby w razie potrzeby użyć poprawnej wersji języka Python, aby dopasować klaster. Aby uzyskać instrukcje, zobacz dokumentację dostawcy środowiska wirtualnego.

  3. Po aktywowaniu środowiska wirtualnego odinstaluj narzędzie PySpark ze środowiska wirtualnego:

    pip3 uninstall pyspark
    
  4. Po aktywowaniu środowiska wirtualnego odinstaluj program Databricks Connect dla środowiska Databricks Runtime 12.2 LTS i poniżej:

    pip3 uninstall databricks-connect
    
  5. Po aktywowaniu środowiska wirtualnego zainstaluj program Databricks Connect dla środowiska Databricks Runtime 13.3 LTS lub nowszego:

    pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
    

    Uwaga

    Usługa Databricks zaleca dołączenie notacji "kropka-gwiazdka", aby określić databricks-connect==X.Y.* zamiast databricks-connect=X.Y, aby upewnić się, że zainstalowano najnowszy pakiet. Chociaż nie jest to wymagane, pomaga upewnić się, że możesz używać najnowszych obsługiwanych funkcji dla tego klastra.

  6. Zaktualizuj kod języka Python, aby zainicjować spark zmienną (która reprezentuje wystąpienie DatabricksSession klasy, podobnie jak SparkSession w PySpark). Przykłady kodu można znaleźć w temacie Install Databricks Connect for Python (Instalowanie programu Databricks Connect dla języka Python).

  7. Przeprowadź migrację interfejsów API RDD do korzystania z interfejsów API ramki danych i zmigruj je SparkContext do użycia alternatyw.

Ustawianie konfiguracji usługi Hadoop

Na kliencie można ustawić konfiguracje usługi Hadoop przy użyciu interfejsu spark.conf.set API, który ma zastosowanie do operacji SQL i DataFrame. Konfiguracje usługi Hadoop ustawione na sparkContext serwerze muszą być ustawione w konfiguracji klastra lub przy użyciu notesu. Dzieje się tak, ponieważ konfiguracje ustawione na sparkContext serwerze nie są powiązane z sesjami użytkownika, ale mają zastosowanie do całego klastra.