Konfigurowanie obliczeń dla zadań

Ten artykuł zawiera zalecenia i zasoby dotyczące konfigurowania zasobów obliczeniowych dla zadań usługi Databricks.

Ważne

Ograniczenia dotyczące przetwarzania bezserwerowego dla zadań obejmują następujące elementy:

  • Brak obsługi planowania ciągłego .
  • Brak obsługi domyślnych lub opartych na czasie wyzwalaczy interwałów w strumieniu ze strukturą.

Aby uzyskać więcej ograniczeń, zobacz Ograniczenia obliczeń bezserwerowych.

Każde zadanie może mieć co najmniej jedno zadanie. Należy zdefiniować zasoby obliczeniowe dla każdego zadania. Wiele zadań zdefiniowanych dla tego samego zadania może używać tego samego zasobu obliczeniowego.

Obraz przedstawiający zadanie z wieloma operacjami wykonywania i skojarzonymi zasobami obliczeniowymi w chmurze

W poniższej tabeli przedstawiono zalecane i obsługiwane typy obliczeń dla każdego typu zadania.

Uwaga

Bezserwerowe obliczenia dla zadań mają ograniczenia i nie obsługują wszystkich obciążeń. Zobacz Ograniczenia obliczeń bezserwerowych.

Zadanie Zalecane obliczenia Obsługiwane zasoby obliczeniowe
Notesy Zadania bezserwerowe Zadania bezserwerowe, zadania klasyczne, klasyczne zadania ogólnego przeznaczenia
Skrypt języka Python Zadania bezserwerowe Zadania bezserwerowe, zadania klasyczne, klasyczne zadania ogólnego przeznaczenia
Koło języka Python Zadania bezserwerowe Zadania bezserwerowe, zadania klasyczne, klasyczne zadania ogólnego przeznaczenia
SQL Bezserwerowa usługa SQL Warehouse Bezserwerowa usługa SQL Warehouse, pro SQL Warehouse
Potok delta Live Tables Potok bezserwerowy Potok bezserwerowy, potok klasyczny
dbt Bezserwerowa usługa SQL Warehouse Bezserwerowa usługa SQL Warehouse, pro SQL Warehouse
Polecenia interfejsu wiersza polecenia dbt Zadania bezserwerowe Zadania bezserwerowe, zadania klasyczne, klasyczne zadania ogólnego przeznaczenia
JAR Zadania klasyczne Zadania klasyczne, klasyczne zadania all-purpose
Przesyłanie platformy Spark Zadania klasyczne Zadania klasyczne

Cennik zadań jest powiązany z obliczeniami używanymi do uruchamiania zadań. Aby uzyskać więcej informacji, zobacz Cennik usługi Databricks.

Jak mogę skonfigurować obliczenia dla zadań?

Obliczenia zadań klasycznych są konfigurowane bezpośrednio z interfejsu użytkownika zadań usługi Databricks, a te konfiguracje są częścią definicji zadania. Wszystkie inne dostępne typy obliczeniowe przechowują swoje konfiguracje z innymi zasobami obszaru roboczego. Poniższa tabela zawiera więcej szczegółów:

Typ środowiska obliczeniowego Szczegóły
Obliczenia zadań klasycznych Obliczenia dla zadań klasycznych można skonfigurować przy użyciu tego samego interfejsu użytkownika i ustawień dostępnych dla obliczeń wszystkich celów. Zobacz Informacje o konfiguracji obliczeniowej.
Bezserwerowe obliczenia dla zadań Bezserwerowe obliczenia dla zadań są domyślne dla wszystkich zadań, które je obsługują. Usługa Databricks zarządza ustawieniami obliczeniowymi dla bezserwerowych obliczeń. Zobacz Uruchamianie zadania usługi Azure Databricks z bezserwerowymi obliczeniami dla przepływów pracy. nn Administrator obszaru roboczego musi włączyć bezserwerowe obliczenia, aby ta opcja jest widoczna. Zobacz Włączanie przetwarzania bezserwerowego.
Magazyny SQL Bezserwerowe i pro usługi SQL Warehouse są konfigurowane przez administratorów obszaru roboczego lub użytkowników z nieograniczonymi uprawnieniami tworzenia klastra. Zadania podrzędne są konfigurowane pod kątem uruchamiania względem istniejących magazynów SQL Warehouse. Zobacz Nawiązywanie połączenia z usługą SQL Warehouse.
Obliczenia potoku tabel na żywo usługi Delta Podczas konfigurowania potoku można skonfigurować ustawienia obliczeniowe dla potoków delta Live Tables. Zobacz Konfigurowanie ustawień obliczeniowych. nn Azure Databricks zarządza zasobami obliczeniowymi dla bezserwerowych potoków tabel na żywo delty. Zobacz Tworzenie w pełni zarządzanych potoków przy użyciu tabel delta Live Tables z bezserwerowymi obliczeniami.
Obliczenia ogólnego przeznaczenia Opcjonalnie można skonfigurować zadania przy użyciu klasycznych obliczeń ogólnego przeznaczenia. Usługa Databricks nie zaleca tej konfiguracji dla zadań produkcyjnych. Zobacz Informacje o konfiguracji obliczeniowej i Czy zasoby obliczeniowe przeznaczone do wszystkich celów powinny być kiedykolwiek używane dla zadań?.

Udostępnianie zasobów obliczeniowych między zadaniami

Skonfiguruj zadania tak, aby używały tych samych zasobów obliczeniowych zadań, aby zoptymalizować użycie zasobów za pomocą zadań, które organizuje wiele zadań. Udostępnianie zasobów obliczeniowych między zadaniami może zmniejszyć opóźnienie związane z czasem uruchamiania.

Za pomocą pojedynczego zasobu obliczeniowego zadania można uruchamiać wszystkie zadania, które są częścią zadania lub wiele zasobów zadań zoptymalizowanych pod kątem określonych obciążeń. Wszystkie obliczenia zadań skonfigurowane jako część zadania są dostępne dla wszystkich innych zadań w zadaniu.

W poniższej tabeli przedstawiono różnice między obliczeniami zadań skonfigurowanymi dla pojedynczego zadania i obliczeniami zadań współużytkowanych między zadaniami:

Jedno zadanie Współużytkowany między zadaniami
Uruchom Po rozpoczęciu uruchamiania zadania. Po rozpoczęciu pierwszego uruchomienia zadania skonfigurowanego do korzystania z zasobu obliczeniowego.
Zakończ Po uruchomieniu zadania. Po zakończeniu zadania skonfigurowanego do korzystania z zasobów obliczeniowych.
Bezczynne obliczenia Nie dotyczy. Zasoby obliczeniowe pozostają w stanie bezczynności, gdy zadania nie korzystają z uruchomienia zasobu obliczeniowego.

Udostępniony klaster zadań jest w zakresie jednego uruchomienia zadania i nie może być używany przez inne zadania lub uruchomienia tego samego zadania.

Nie można zadeklarować bibliotek w konfiguracji klastra zadań udostępnionych. Biblioteki zależne należy dodać w ustawieniach zadań.

Przeglądanie, konfigurowanie i zamiana zadań obliczeniowych

Sekcja Obliczenia w panelu Szczegóły zadania zawiera listę wszystkich zasobów obliczeniowych skonfigurowanych dla zadań w bieżącym zadaniu.

Zadania skonfigurowane do używania zasobu obliczeniowego są wyróżnione na wykresie zadań po umieszczeniu wskaźnika myszy na specyfikacji obliczeniowej.

Użyj przycisku Zamień, aby zmienić obliczenia dla wszystkich zadań skojarzonych z zasobem obliczeniowym.

Zasoby obliczeniowe zadań klasycznych mają opcję Konfiguruj . Inne zasoby obliczeniowe udostępniają opcje wyświetlania i modyfikowania szczegółów konfiguracji obliczeniowej.

Zalecenia dotyczące konfigurowania obliczeń zadań klasycznych

Ta sekcja koncentruje się na ogólnych zaleceniach dotyczących funkcji i konfiguracji, które mogą przynieść korzyści niektórym przepływom pracy. Konkretne zalecenia dotyczące konfigurowania rozmiaru i typów zasobów obliczeniowych różnią się w zależności od obciążenia.

Usługa Databricks zaleca włączenie przyspieszania photon, używanie najnowszych wersji środowiska Databricks Runtime i używanie obliczeń skonfigurowanych dla wykazu aparatu Unity.

Bezserwerowe obliczenia dla zadań zarządzają całą infrastrukturą, eliminując następujące zagadnienia. Zobacz Uruchamianie zadania usługi Azure Databricks z bezserwerowymi obliczeniami dla przepływów pracy.

Uwaga

Przepływy pracy przesyłania strumieniowego ze strukturą mają określone zalecenia. Zobacz Zagadnienia dotyczące produkcji przesyłania strumieniowego ze strukturą.

Korzystanie z trybu dostępu współdzielonego

Usługa Databricks zaleca używanie trybu dostępu współdzielonego dla zadań. Zobacz Tryby dostępu.

Uwaga

Tryb dostępu współdzielonego nie obsługuje niektórych obciążeń i funkcji. Usługa Databricks zaleca tryb dostępu pojedynczego użytkownika dla tych obciążeń. Zobacz Ograniczenia trybu dostępu obliczeniowego dla wykazu aparatu Unity.

Korzystanie z zasad klastra

Usługa Databricks zaleca, aby administratorzy obszarów roboczych definiowali zasady klastra dla zadań i wymuszali te zasady dla wszystkich użytkowników, którzy konfigurują zadania.

Zasady klastra umożliwiają administratorom obszarów roboczych ustawianie kontroli kosztów i ograniczanie opcji konfiguracji użytkowników. Aby uzyskać szczegółowe informacje na temat konfigurowania zasad klastra, zobacz Tworzenie zasad obliczeniowych i zarządzanie nimi.

Usługa Azure Databricks udostępnia domyślne zasady skonfigurowane dla zadań. Administratorzy mogą udostępnić te zasady innym użytkownikom obszaru roboczego. Zobacz Obliczenia zadań.

Używanie skalowania automatycznego

Skonfiguruj skalowanie automatyczne, aby długotrwałe zadania mogły dynamicznie dodawać i usuwać węzły robocze podczas uruchamiania zadania. Zobacz Włącz skalowanie automatyczne.

Użyj puli, aby skrócić czas uruchamiania klastra

Pule zasobów obliczeniowych umożliwiają rezerwę zasobów obliczeniowych od dostawcy usług w chmurze. Pule są korzystne, aby zmniejszyć czas rozpoczęcia nowego klastra zadań i zapewnić dostępność zasobów obliczeniowych. Zobacz Dokumentację konfiguracji puli.

Używanie wystąpień typu spot

Skonfiguruj wystąpienia typu spot dla obciążeń, które mają wymagania dotyczące opóźnienia w celu optymalizacji kosztów. Zobacz Wystąpienia typu spot.

Czy w przypadku zadań należy kiedykolwiek używać obliczeń wszystkich celów?

Istnieje wiele powodów, dla których usługa Databricks zaleca korzystanie z obliczeń wszystkich celów dla zadań, w tym następujących:

  • Opłaty za usługę Azure Databricks dla obliczeń wszystkich celów są naliczane w innej szybkości niż obliczenia zadań.
  • Obliczenia zadań kończą się automatycznie po zakończeniu uruchamiania zadania. Obliczenia ogólnego przeznaczenia obsługują automatyczne kończenie, które jest powiązane z brakiem aktywności, a nie końcem uruchomienia zadania.
  • Obliczenia ogólnego przeznaczenia są często współużytkowane przez zespoły użytkowników. Zadania zaplanowane dla obliczeń wszystkich celów często zwiększają opóźnienie ze względu na konkurencję dla zasobów obliczeniowych.
  • Wiele zaleceń dotyczących optymalizowania konfiguracji obliczeniowej zadań nie jest odpowiednie dla typu zapytań ad hoc i obciążeń interakcyjnych uruchamianych w obliczeniach wszystkich celów.

Poniżej przedstawiono przypadki użycia, w których można użyć obliczeń wszystkich celów dla zadań:

  • Iteracyjnie opracowujesz lub testujesz nowe zadania. Czas uruchamiania zasobów obliczeniowych zadań może sprawić, że programowanie iteracyjne będzie żmudne. Obliczenia ogólnego przeznaczenia umożliwiają szybkie stosowanie zmian i uruchamianie zadania.
  • Masz krótkotrwałe zadania, które muszą być uruchamiane często lub zgodnie z określonym harmonogramem. Nie ma czasu uruchamiania skojarzonego z aktualnie uruchomionymi obliczeniami typu all-purpose. Rozważ koszty związane z czasem bezczynności, jeśli używasz tego wzorca.

Przetwarzanie bezserwerowe dla zadań jest zalecanym zamiennikiem większości typów zadań, które można rozważyć przy użyciu obliczeń wszystkich celów.