Synchronizowanie plików lokalnych za pomocą narzędzia dbx z zdalnymi obszarami roboczymi w czasie rzeczywistym

Ważne

Ta dokumentacja została wycofana i może nie zostać zaktualizowana.

Usługa Databricks zaleca, aby zamiast dbx syncprogramu używać interfejsu wiersza polecenia usługi Databricks w wersji 0.205 lub nowszej, co obejmuje funkcje podobne do databricks sync dbx sync poleceń.

Rozszerzenie usługi Databricks dla programu Visual Studio Code zawiera również funkcje podobne do dbx sync zintegrowanego ze środowiskiem IDE programu Visual Studio Code. Należy pamiętać, że dbx sync można synchronizować zmiany plików z lokalnej maszyny deweloperów do systemu plików DBFS, lokalizacji obszarów roboczych i folderów Git usługi Databricks w obszarach roboczych usługi Azure Databricks. Rozszerzenie usługi Databricks dla programu Visual Studio Code obsługuje synchronizowanie zmian plików tylko z plikami użytkownika obszaru roboczego (/Users) i folderami Git usługi Databricks (/Repos).

Uwaga

W tym artykule omówiono dbx usługę Databricks Labs, która jest dostarczana zgodnie z oczekiwaniami i nie jest obsługiwana przez usługę Databricks za pośrednictwem kanałów pomocy technicznej klienta. Pytania i żądania funkcji można przekazać za pośrednictwem strony Problemy repozytorium databrickslabs/dbx w usłudze GitHub.

Synchronizację zmian w czasie rzeczywistym można przeprowadzić na lokalnej maszynie dewelopera z odpowiednimi plikami w obszarach roboczych usługi Azure Databricks przy użyciu narzędzia dbx firmy Databricks Labs. Te pliki obszaru roboczego mogą znajdować się w systemie plików DBFS lub w folderach Git usługi Databricks.

Synchronizacja plików w czasie rzeczywistym ( dbx znana również jako dbx sync) jest przydatna w scenariuszach szybkiego tworzenia kodu. Na przykład możesz użyć lokalnego zintegrowanego środowiska projektowego (IDE) do obsługi funkcji zwiększających produktywność, takich jak wyróżnianie składni, inteligentne uzupełnianie kodu, linting kodu oraz testowanie i debugowanie. Następnie możesz natychmiast przejść do obszaru roboczego i uruchomić zaktualizowany kod.

Można używać samodzielniedbx sync, z automatycznymi zadaniami lub ze środowiskiem IDE.

dbx sync przepływy pracy programowania

Istnieją dwa przepływy pracy programistyczne dla dbx syncprogramu , jeden z systemem plików DBFS, a drugi z folderami Git usługi Databricks.

Typowy przepływ pracy programowania z systemami dbx sync DBFS to:

  1. Zidentyfikuj katalog lokalny zawierający pliki, które chcesz zsynchronizować z systemami DBFS.
  2. Zidentyfikuj ścieżkę w systemie plików DBFS, z którą chcesz zsynchronizować katalog lokalny (lub pozwól dbx sync utworzyć domyślną ścieżkę systemu plików DBFS).
  3. Uruchom polecenie dbx sync dbfs , aby zsynchronizować katalog lokalny ze ścieżką systemu plików DBFS. dbx sync rozpoczyna oglądanie katalogu lokalnego pod kątem wszelkich zmian w pliku.
  4. W razie potrzeby wprowadź zmiany w plikach w katalogu lokalnym. dbx sync stosuje te zmiany do odpowiednich plików w ścieżce systemu plików DBFS w czasie rzeczywistym.

Typowy przepływ pracy programowania z folderami dbx sync Git usługi Databricks to:

  1. Utwórz repozytorium za pomocą dostawcy git obsługiwanego przez foldery Git usługi Databricks, jeśli nie masz już dostępnego repozytorium.
  2. Sklonuj repozytorium do obszaru roboczego usługi Azure Databricks.
  3. Sklonuj repozytorium na lokalną maszynę deweloperów.
  4. Uruchom polecenie dbx sync repo , aby skojarzyć sklonowane repozytorium lokalne z sklonowanym repozytorium obszaru roboczego. dbx sync rozpoczyna oglądanie katalogu lokalnego pod kątem wszelkich zmian w pliku.
  5. Wprowadź zmiany w plikach w lokalnym sklonowanym repozytorium zgodnie z potrzebami. dbx sync stosuje te zmiany do odpowiednich plików w folderach Git usługi Databricks w czasie rzeczywistym.
  6. Okresowo wypychaj zaktualizowane pliki z sklonowanego repozytorium w obszarze roboczym do dostawcy usługi Git, aby repozytorium było aktualne u dostawcy usługi Git.

Ważne

dbx sync Wykonuje tylko jednokierunkową synchronizację zmian plików z lokalnej maszyny deweloperów do zdalnego obszaru roboczego w czasie rzeczywistym. W związku z tym usługa Databricks nie zaleca inicjowania zmian w obszarze roboczym usługi Azure Databricks do plików monitorowanych przez dbx syncusługę . Jeśli musisz wprowadzić takie zmiany w pliku inicjowane przez obszar roboczy, należy również wykonać następujące czynności:

  • W przypadku zmian plików w systemie plików DBFS wprowadź odpowiednie zmiany w plikach lokalnych ręcznie.
  • W przypadku zmian plików w folderach Usługi Git usługi Databricks wypchnij zmiany plików z obszaru roboczego do dostawcy usługi Git. Następnie na lokalnej maszynie deweloperów pobierz te zmiany z dostawcy usługi Git.

Wymagania

Jeśli chcesz używać z dbx sync folderami Git usługi Databricks, obszar roboczy usługi Azure Databricks musi spełniać następujące wymagania:

  • Sugerowane jest sklonowanie repozytorium z dostawcą usługi Git, choć nie jest to wymagane.

Na lokalnej maszynie deweloperów musisz mieć zainstalowane następujące elementy:

  • Środowisko Python w wersji 3.8 lub nowszej. Aby sprawdzić, czy język Python jest zainstalowany, i sprawdzić zainstalowaną wersję języka Python, uruchom polecenie python --version w terminalu lub programie PowerShell.

    python --version
    

    Uwaga

    Niektóre instalacje python programu mogą wymagać użycia python3 programu zamiast python. Jeśli tak, zastąp ciąg ciągiem python python3 w całym tym artykule.

  • . Aby sprawdzić, czy pip jest zainstalowana, i sprawdzić zainstalowaną pip wersję, uruchom polecenie pip --version lub python -m pip --version.

    pip --version
    
    # Or...
    
    python -m pip --version
    

    Uwaga

    Niektóre instalacje pip programu mogą wymagać użycia pip3 programu zamiast pip. Jeśli tak, zastąp ciąg ciągiem pip pip3 w całym tym artykule.

  • dbx w wersji 0.8.0 lub nowszej. Aby sprawdzić, czy dbx jest zainstalowana, i sprawdzić zainstalowaną dbx wersję, uruchom polecenie dbx --version. Aby zainstalować z dbx poziomu indeksu pakietów języka Python (PyPI), uruchom polecenie pip install dbx lub python -m pip install dbx. (dbx obejmuje synchronizację dbx).

    # Check whether dbx is installed, and check its version.
    dbx --version
    
    # Install dbx.
    pip install dbx
    
    # Or...
    python -m pip install dbx
    

    Uwaga

    Aby uzyskać więcej informacji na temat dbxusługi , zobacz dbx by Databricks Labs i dokumentację dbx.

  • Interfejs wiersza polecenia usługi Databricks w wersji 0.18 lub nowszej jest skonfigurowany przy użyciu uwierzytelniania. Starszy interfejs wiersza polecenia usługi Databricks (interfejs wiersza polecenia usługi Databricks w wersji 0.17) jest instalowany automatycznie podczas instalacji dbxprogramu . To uwierzytelnianie można skonfigurować na lokalnej maszynie deweloperów w jednej lub obu następujących lokalizacjach:

    • DATABRICKS_HOST W zmiennych środowiskowych i DATABRICKS_TOKEN (począwszy od starszej wersji interfejsu wiersza polecenia usługi Databricks w wersji 0.8.0).
    • W profilu konfiguracji usługi Azure Databricks w pliku.databrickscfg.

    dbx szuka poświadczeń uwierzytelniania w tych dwóch lokalizacjach odpowiednio. dbx używa tylko pierwszego zestawu pasujących poświadczeń, które znajdzie.

    Uwaga

    Jeśli używasz .databrickscfg pliku, dbx sync domyślnie wyszukuje w tym pliku profil konfiguracji o nazwie DEFAULT . Aby określić inny profil, użyj --profile opcji podczas uruchamiania dbx sync polecenia w dalszej części tego artykułu.

    dbx program nie obsługuje używania pliku .netrc do uwierzytelniania.

  • Jeśli chcesz używać dbx sync z folderami Usługi Git usługi Databricks, sugerowane jest lokalne klonowanie repozytorium u dostawcy usługi Git, choć nie jest to wymagane. Aby wykonać klon lokalny, zapoznaj się z dokumentacją dostawcy usługi Git.

Używanie systemu plików DBFS z dbx sync

  1. Z poziomu terminalu lub programu PowerShell na lokalnym komputerze deweloperskim przejdź do katalogu zawierającego pliki, które chcesz zsynchronizować z systemem plików DBFS w obszarze roboczym usługi Azure Databricks.

  2. Uruchom polecenie dbx sync, aby zsynchronizować katalog lokalny z systemem plików DBFS w obszarze roboczym w następujący sposób. (Nie zapomnij o kropki (.) na końcu, która reprezentuje bieżący katalog.

    dbx sync dbfs --source .
    

    Napiwek

    Aby określić inny katalog źródłowy, zastąp kropkę (.) inną ścieżką.

    Uwaga

    Jeśli wystąpi błąd Error: No such command 'sync' , instalacja dbx prawdopodobnie nie jest aktualna. Aby rozwiązać ten problem, uruchom polecenie pip install --upgrade dbx==<version> lub , gdzie <version> jest najnowszą wersją programu dbxpython -m pip install --upgrade dbx==version. Ten numer wersji można znaleźć na stronie internetowej PyPI dla dbx.

    pip install --upgrade dbx==<version>
    
    # Or...
    python -m pip install --upgrade dbx==version
    
  3. dbx sync Rozpoczyna synchronizowanie plików w bieżącym katalogu lokalnym z plikami w następującej ścieżce systemu plików DBFS w obszarze roboczym. dbx sync potwierdza to, drukując Target base path , a następnie ścieżkę systemu plików DBFS, na przykład:

    /tmp/users/<your-Databricks-username>/<local-directory-name>
    

    Napiwek

    Aby określić inną nazwę użytkownika lub ścieżkę systemu plików DBFS, określ --user odpowiednio opcje i --dest po uruchomieniu polecenia dbx sync.

  4. Wprowadź zmiany w plikach lokalnych zgodnie z potrzebami.

    Ważne

    Aby kontynuować synchronizowanie, musisz zachować otwarty dbx sync terminal lub program PowerShell. Jeśli zamkniesz terminal lub program PowerShell, dbx sync zatrzymasz obserwowanie zmian plików i zatrzyma synchronizację. Aby wznowić synchronizację zmian plików, powtórz tę procedurę od początku.

  5. W razie potrzeby zweryfikuj zmiany pliku w poprzedniej ścieżce w systemie plików DBFS w obszarze roboczym.

Używanie folderów Git usługi Databricks z usługą dbx sync

  1. Z poziomu terminalu lub programu PowerShell na lokalnym komputerze deweloperskim przejdź do katalogu głównego zawierającego klon repozytorium za pomocą dostawcy usługi Git.

  2. W obszarze roboczym usługi Azure Databricks zidentyfikuj nazwę folderu Usługi Git usługi Databricks, z którym chcesz zsynchronizować lokalne sklonowane repozytorium. Tę nazwę repozytorium można znaleźć, klikając pozycję Foldery Git na pasku bocznym obszaru roboczego.

  3. Na lokalnej maszynie deweloperów uruchom polecenie dbx sync , aby zsynchronizować lokalne sklonowane repozytorium do folderów Git usługi Databricks w obszarze roboczym w następujący sposób, zastępując <your-repo-name> ciąg nazwą repozytorium w folderach Git usługi Databricks. (Nie zapomnij o kropki (.) na końcu, która reprezentuje bieżący katalog.

    dbx sync repo -d <your-repo-name> --source .
    

    Napiwek

    Aby określić inny katalog źródłowy, zastąp kropkę (.) inną ścieżką.

    Uwaga

    Jeśli wystąpi błąd Error: No such command 'sync' , instalacja dbx prawdopodobnie nie jest aktualna. Aby rozwiązać ten problem, uruchom polecenie pip install --upgrade dbx==<version> lub , gdzie <version> jest najnowszą wersją programu dbxpython -m pip install --upgrade dbx==version. Ten numer wersji można znaleźć na stronie internetowej PyPI dla dbx.

    pip install --upgrade dbx==<version>
    
    # Or...
    python -m pip install --upgrade dbx==version
    
  4. dbx sync Rozpoczyna synchronizowanie plików w lokalnym sklonowanym repozytorium za pomocą plików w folderach Git usługi Databricks w obszarze roboczym. dbx sync potwierdza to, drukując Target base path , a następnie ścieżkę folderów Git usługi Databricks, na przykład:

    /Repos/<your-Databricks-username>/<your-repo-name>
    

    Napiwek

    Aby określić inną nazwę użytkownika lub nazwę repozytorium, określ --user odpowiednio opcje i --dest-repo po uruchomieniu polecenia dbx sync.

  5. Wprowadź zmiany w plikach lokalnych zgodnie z potrzebami.

    Ważne

    Aby kontynuować synchronizowanie, musisz zachować otwarty dbx sync terminal lub program PowerShell. Jeśli zamkniesz terminal lub program PowerShell, dbx sync zatrzymasz obserwowanie zmian plików i zatrzyma synchronizację. Aby wznowić synchronizację zmian plików, powtórz tę procedurę od początku.

  6. W razie potrzeby zweryfikuj zmiany plików w folderach Git usługi Databricks w obszarze roboczym.

Dodatkowe zasoby