Używanie środowiska Eclipse z narzędziami PyDev i Databricks Connect dla języka Python

Uwaga

W tym artykule opisano usługę Databricks Connect dla środowiska Databricks Runtime 13.3 LTS lub nowszego.

W tym artykule opisano sposób używania programu Databricks Connect dla języka Scala i środowiska Eclipse za pomocą narzędzia PyDev. Usługa Databricks Connect umożliwia łączenie popularnych środowisk IDE, serwerów notesów i innych aplikacji niestandardowych z klastrami usługi Azure Databricks. Zobacz Co to jest usługa Databricks Connect?.

Uwaga

Przed rozpoczęciem korzystania z usługi Databricks Connect należy skonfigurować klienta Usługi Databricks Connect.

Aby użyć programu Databricks Connect i środowiska Eclipse z rozwiązaniem PyDev, postępuj zgodnie z tymi instrukcjami.

  1. Uruchom środowisko Eclipse.
  2. Utwórz projekt: kliknij pozycję Plik > nowy > projekt > PyDev PyDev > PyDev Project, a następnie kliknij przycisk Dalej.
  3. Określ nazwę projektu.
  4. W polu Zawartość projektu określ ścieżkę do środowiska wirtualnego języka Python.
  5. Kliknij przycisk Skonfiguruj interpreter przed wykonaniem procedury.
  6. Kliknij pozycję Konfiguracja ręczna.
  7. Kliknij pozycję Nowe > przeglądaj dla pliku exe python/pypy.
  8. Przejdź do i wybierz pełną ścieżkę do interpretera języka Python, do którego odwołuje się środowisko wirtualne, a następnie kliknij przycisk Otwórz.
  9. W oknie dialogowym Wybieranie interpretera kliknij przycisk OK.
  10. W oknie dialogowym Wybór potrzebny kliknij przycisk OK.
  11. W oknie dialogowym Preferencje kliknij przycisk Zastosuj i zamknij.
  12. W oknie dialogowym Projekt PyDev kliknij przycisk Zakończ.
  13. Kliknij pozycję Otwórz perspektywę.
  14. Dodaj do projektu plik kodu języka Python (.py), który zawiera przykładowy kod lub własny kod. Jeśli używasz własnego kodu, musisz co najmniej zainicjować DatabricksSession kod, jak pokazano w przykładowym kodzie.
  15. Po otwarciu pliku kodu języka Python ustaw wszystkie punkty przerwania, w których kod ma zostać wstrzymany podczas działania.
  16. Aby uruchomić kod, kliknij pozycję Uruchom>. Cały kod w języku Python działa lokalnie, podczas gdy cały kod PySpark obejmujący operacje ramki danych jest uruchamiany w klastrze w zdalnym obszarze roboczym usługi Azure Databricks i uruchamiane odpowiedzi są wysyłane z powrotem do lokalnego obiektu wywołującego.
  17. Aby debugować kod, kliknij pozycję Uruchom > debugowanie. Cały kod języka Python jest debugowany lokalnie, podczas gdy cały kod PySpark nadal działa w klastrze w zdalnym obszarze roboczym usługi Azure Databricks. Nie można debugować podstawowego kodu aparatu Spark bezpośrednio z klienta.

Aby uzyskać bardziej szczegółowe instrukcje dotyczące uruchamiania i debugowania, zobacz Running a Program (Uruchamianie programu).