Używanie środowiska IntelliJ IDEA z usługą Databricks Połączenie dla języka Scala

Uwaga

W tym artykule opisano usługę Databricks Połączenie dla środowiska Databricks Runtime 13.3 LTS i nowszych wersji.

W tym artykule opisano sposób używania usługi Databricks Połączenie dla języka Scala i środowiska IntelliJ IDEA z wtyczką Scala. Usługa Databricks Połączenie umożliwia łączenie popularnych środowisk IDE, serwerów notesów i innych aplikacji niestandardowych z klastrami usługi Azure Databricks. Zobacz Co to jest usługa Databricks Połączenie?.

Uwaga

Przed rozpoczęciem korzystania z usługi Databricks Połączenie należy skonfigurować klienta usługi Databricks Połączenie.

Aby użyć usługi Databricks Połączenie i środowiska IntelliJ IDEA z wtyczką Scala w celu utworzenia, uruchomienia i debugowania przykładowego projektu Scalasbt, postępuj zgodnie z tymi instrukcjami. Te instrukcje zostały przetestowane w środowisku IntelliJ IDEA Community Edition 2023.3.6. Jeśli używasz innej wersji lub wydania środowiska IntelliJ IDEA, poniższe instrukcje mogą się różnić.

  1. Upewnij się, że zestaw Java Development Kit (JDK) jest zainstalowany lokalnie. Usługa Databricks zaleca, aby lokalna wersja zestawu JDK odpowiadała wersji zestawu JDK w klastrze usługi Azure Databricks.

  2. Uruchom środowisko IntelliJ IDEA.

  3. Kliknij pozycję Plik > nowy > projekt.

  4. Nadaj projektowi znaczącą nazwę.

  5. W obszarze Lokalizacja kliknij ikonę folderu i ukończ wskazówki na ekranie, aby określić ścieżkę do nowego projektu Scala.

  6. W obszarze Język kliknij pozycję Scala.

  7. W obszarze System kompilacji kliknij pozycję sbt.

  8. Z listy rozwijanej zestaw JDK wybierz istniejącą instalację zestawu JDK na maszynie dewelopera zgodnej z wersją zestawu JDK w klastrze lub wybierz pozycję Pobierz zestaw JDK i postępuj zgodnie z instrukcjami wyświetlanymi na ekranie, aby pobrać zestaw JDK zgodny z wersją zestawu JDK w klastrze.

    Uwaga

    Wybranie instalacji zestawu JDK, która znajduje się powyżej lub poniżej wersji zestawu JDK w klastrze, może spowodować nieoczekiwane wyniki lub kod może w ogóle nie działać.

  9. Z listy rozwijanej sbt wybierz najnowszą wersję.

  10. Z listy rozwijanej Scala wybierz wersję języka Scala zgodną z wersją języka Scala w klastrze.

    Uwaga

    Wybranie wersji języka Scala poniżej lub nowszej wersji języka Scala w klastrze może spowodować nieoczekiwane wyniki lub kod może w ogóle nie działać.

  11. W polu Prefiks pakietu wprowadź wartość prefiksu pakietu dla źródeł projektu, na przykład org.example.application.

  12. Upewnij się, że pole Dodaj przykładowy kod jest zaznaczone.

  13. Kliknij pozycję Utwórz.

  14. Dodaj pakiet Połączenie usługi Databricks: po otwarciu nowego projektu Scala w oknie narzędzia Project (Wyświetl > narzędzie > Windows Project) otwórz plik o nazwie build.sbt, w obiekcie docelowym nazwy> projektu.

  15. Dodaj następujący kod na końcu build.sbt pliku, który deklaruje zależność projektu od określonej wersji biblioteki usługi Databricks Połączenie dla języka Scala:

    libraryDependencies += "com.databricks" % "databricks-connect" % "14.3.1"
    

    Zastąp 14.3.1 element wersją biblioteki usługi Databricks Połączenie zgodną z wersją środowiska Databricks Runtime w klastrze. Numery wersji biblioteki usługi Databricks Połączenie można znaleźć w centralnym repozytorium Maven.

  16. Kliknij ikonę powiadomienia Załaduj zmiany sbt , aby zaktualizować projekt Scala przy użyciu nowej lokalizacji biblioteki i zależności.

  17. Poczekaj, sbt aż wskaźnik postępu w dolnej części środowiska IDE zniknie. Proces sbt ładowania może potrwać kilka minut.

  18. Dodaj kod: w oknie narzędzia project otwórz plik o nazwie Main.scala, w głównej > scala src > nazwy> projektu.

  19. Zastąp istniejący kod w pliku następującym kodem, a następnie zapisz plik:

    package org.example.application
    
    import com.databricks.connect.DatabricksSession
    import org.apache.spark.sql.SparkSession
    
    object Main {
      def main(args: Array[String]): Unit = {
        val spark = DatabricksSession.builder().remote().getOrCreate()
        val df = spark.read.table("samples.nyctaxi.trips")
        df.limit(5).show()
      }
    }
    
  20. Uruchom kod: uruchom klaster docelowy w zdalnym obszarze roboczym usługi Azure Databricks.

  21. Po uruchomieniu klastra w menu głównym kliknij pozycję Uruchom > polecenie "Main".

  22. W oknie Uruchom narzędzie (Wyświetl > narzędzie > Windows Run) na karcie Main (Główne) zostanie wyświetlonych pierwszych 5 wierszy samples.nyctaxi.trips tabeli. Cały kod Scala działa lokalnie, podczas gdy cały kod Scala obejmujący operacje ramki danych jest uruchamiany w klastrze w zdalnym obszarze roboczym usługi Azure Databricks i uruchamiane odpowiedzi są wysyłane z powrotem do lokalnego obiektu wywołującego.

  23. Debuguj kod: uruchom klaster docelowy w zdalnym obszarze roboczym usługi Azure Databricks, jeśli jeszcze nie jest uruchomiony.

  24. W poprzednim kodzie kliknij gutter obok, aby ustawić df.limit(5).show() punkt przerwania.

  25. Po uruchomieniu klastra w menu głównym kliknij pozycję Uruchom > debugowanie "Main".

  26. W oknie narzędzia Debugowanie (Wyświetl > narzędzie Debugowanie systemu Windows>) na karcie Konsola kliknij ikonę kalkulatora (Oceń wyrażenie).

  27. Wprowadź wyrażenie df.schema i kliknij przycisk Oceń , aby wyświetlić schemat ramki danych.

  28. Na pasku bocznym okna narzędzia debugowania kliknij ikonę zielonej strzałki (wznów program).

  29. W okienku Konsola zostanie wyświetlonych pierwszych 5 wierszy samples.nyctaxi.trips tabeli. Cały kod Scala działa lokalnie, podczas gdy cały kod Scala obejmujący operacje ramki danych jest uruchamiany w klastrze w zdalnym obszarze roboczym usługi Azure Databricks i uruchamiane odpowiedzi są wysyłane z powrotem do lokalnego obiektu wywołującego.