Odwołanie do właściwości tabel delta Live Tables
Ten artykuł zawiera informacje dotyczące specyfikacji ustawień ustawień JSON tabel delta Live Tables i właściwości tabeli w usłudze Azure Databricks. Aby uzyskać więcej informacji na temat używania tych różnych właściwości i konfiguracji, zobacz następujące artykuły:
- Konfigurowanie ustawień potoku dla narzędzia Delta Live Tables
- Przewodnik po interfejsie API tabel na żywo usługi Delta
Konfiguracje potoków tabel na żywo usługi Delta
Pola |
---|
id Typ: string Unikatowy identyfikator globalny dla tego potoku. Identyfikator jest przypisywany przez system i nie można go zmienić. |
name Typ: string Przyjazna dla użytkownika nazwa tego potoku. Nazwa może służyć do identyfikowania zadań potoku w interfejsie użytkownika. |
storage Typ: string Lokalizacja w systemie dbFS lub magazynie w chmurze, w której są przechowywane dane wyjściowe i metadane wymagane do wykonania potoku. Tabele i metadane są przechowywane w podkatalogach tej lokalizacji. storage Jeśli ustawienie nie zostanie określone, system będzie domyślnie ustawiać lokalizację w programie dbfs:/pipelines/ .Nie storage można zmienić ustawienia po utworzeniu potoku. |
configuration Typ: object Opcjonalna lista ustawień do dodania do konfiguracji platformy Spark klastra, który uruchomi potok. Te ustawienia są odczytywane przez środowisko uruchomieniowe delta Live Tables i dostępne dla zapytań potoku za pośrednictwem konfiguracji platformy Spark. Elementy muszą być sformatowane jako key:value pary. |
libraries Typ: array of objects Tablica notesów zawierająca kod potoku i wymagane artefakty. |
clusters Typ: array of objects Tablica specyfikacji klastrów do uruchomienia potoku. Jeśli nie zostanie to określone, potoki będą automatycznie wybierać domyślną konfigurację klastra dla potoku. |
development Typ: boolean Flaga wskazująca, czy należy uruchomić potok w programie development lub production tryb.Domyślna wartość to true |
notifications Typ: array of objects Opcjonalna tablica specyfikacji dla powiadomień e-mail po zakończeniu aktualizacji potoku kończy się niepowodzeniem z błędem z możliwością ponawiania próby, niepowodzeniem z błędem niemożliwym do ponowienia próby lub niepowodzeniem przepływu. |
continuous Typ: boolean Flaga wskazująca, czy potok ma być uruchomiony w sposób ciągły. Domyślna wartość to false . |
target Typ: string Nazwa bazy danych do utrwalania danych wyjściowych potoku. Skonfigurowanie target ustawienia umożliwia wyświetlanie i wykonywanie zapytań dotyczących danych wyjściowych potoku z interfejsu użytkownika usługi Azure Databricks. |
channel Typ: string Wersja środowiska uruchomieniowego delta Live Tables do użycia. Obsługiwane wartości to: - preview aby przetestować potok przy użyciu nadchodzących zmian w wersji środowiska uruchomieniowego.- current aby użyć bieżącej wersji środowiska uruchomieniowego.Pole channel jest opcjonalne. Wartość domyślna tocurrent . Usługa Databricks zaleca używanie bieżącej wersji środowiska uruchomieniowego dla obciążeń produkcyjnych. |
edition Wpisz string Wersja produktu Delta Live Tables w celu uruchomienia potoku. To ustawienie umożliwia wybranie najlepszej wersji produktu na podstawie wymagań potoku: - CORE do uruchamiania obciążeń pozyskiwania strumieniowego.- PRO w celu uruchamiania pozyskiwania i zmieniania obciążeń przechwytywania danych (CDC).- ADVANCED do uruchamiania obciążeń pozyskiwania strumieniowego, obciążeń CDC i obciążeń, które wymagają oczekiwań usługi Delta Live Tables w celu wymuszenia ograniczeń jakości danych.Pole edition jest opcjonalne. Wartość domyślna toADVANCED . |
photon Typ: boolean Flaga wskazująca, czy używać funkcji Co to jest photon? do uruchomienia potoku. Photon to aparat Spark o wysokiej wydajności usługi Azure Databricks. Potoki z obsługą fotonu są rozliczane według innej stawki niż potoki inne niż photon. Pole photon jest opcjonalne. Domyślna wartość to false . |
pipelines.maxFlowRetryAttempts Typ: int Maksymalna liczba prób ponawiania próby ponowienia próby przepływu przed niepowodzeniem aktualizacji potoku w przypadku wystąpienia błędu możliwego do ponowienia próby. Wartość domyślna to dwa. Domyślnie po ponowieniu próby wystąpi błąd, środowisko uruchomieniowe delta Live Tables próbuje uruchomić przepływ trzy razy, w tym oryginalną próbę. |
pipelines.numUpdateRetryAttempts Typ: int Maksymalna liczba prób ponawiania próby ponowienia próby aktualizacji przed niepowodzeniem aktualizacji w przypadku wystąpienia błędu możliwego do ponowienia próby. Ponawianie jest uruchamiane jako pełna aktualizacja. Wartość domyślna to pięć. Ten parametr ma zastosowanie tylko do wyzwalanych aktualizacji uruchamianych w trybie produkcyjnym. Nie ma ponawiania próby po uruchomieniu potoku w trybie programowania. |
Właściwości tabeli Tabele na żywo usługi Delta
Uwaga
Właściwości tabeli do kontrolowania zachowania zarządzania grobowca są zastępowane przez ustawienia potoku, a wszystkie istniejące lub nowe potoki powinny używać nowych ustawień potoku. Zobacz Control tombstone management for SCD type 1 queries (Kontrola zarządzania grobowcami dla zapytań typu 1).
Oprócz właściwości tabeli obsługiwanych przez usługę Delta Lake można ustawić następujące właściwości tabeli.
Właściwości tabeli |
---|
pipelines.autoOptimize.managed Domyślnie: true Włącza lub wyłącza automatycznie zaplanowaną optymalizację tej tabeli. |
pipelines.autoOptimize.zOrderCols Ustawienie domyślne: Brak Opcjonalny ciąg zawierający rozdzielaną przecinkami listę nazw kolumn według kolejności z tej tabeli. Na przykład pipelines.autoOptimize.zOrderCols = "year,month" |
pipelines.reset.allowed Domyślnie: true Określa, czy pełne odświeżanie jest dozwolone dla tej tabeli. |
Interwał wyzwalacza potoków
Można określić interwał wyzwalacza potoku dla całego potoku delta Live Tables lub w ramach deklaracji zestawu danych. Zobacz Interwał wyzwalacza potoków.
pipelines.trigger.interval |
---|
Wartość domyślna jest oparta na typie przepływu: - Pięć sekund dla zapytań przesyłania strumieniowego. — Minuta wykonywania zapytań, gdy wszystkie dane wejściowe pochodzą ze źródeł różnicowych. — Dziesięć minut dla pełnych zapytań, gdy niektóre źródła danych mogą nie być delty. Wartość jest liczbą oraz jednostką czasową. Poniżej przedstawiono prawidłowe jednostki czasu: - second , seconds - minute , minutes - hour , hours - day , days Można użyć jednostki pojedynczej lub mnogiej podczas definiowania wartości, na przykład: - {"pipelines.trigger.interval" : "1 hour"} - {"pipelines.trigger.interval" : "10 seconds"} - {"pipelines.trigger.interval" : "30 second"} - {"pipelines.trigger.interval" : "1 minute"} - {"pipelines.trigger.interval" : "10 minutes"} - {"pipelines.trigger.interval" : "10 minute"} |
Atrybuty klastra, które nie są konfigurowalne przez użytkownika
Ponieważ tabele delta Live Tables zarządzają cyklami życia klastra, wiele ustawień klastra jest ustawianych przez tabele na żywo delty i nie można ich ręcznie skonfigurować w konfiguracji potoku lub w zasadach klastra używanych przez potok. W poniższej tabeli wymieniono te ustawienia i przyczyny, których nie można ustawić ręcznie.
Pola |
---|
cluster_name Funkcja Delta Live Tables ustawia nazwy klastrów używanych do uruchamiania aktualizacji potoku. Tych nazw nie można zastąpić. |
data_security_mode access_mode Te wartości są automatycznie ustawiane przez system. |
spark_version Klastry Delta Live Tables działają w niestandardowej wersji środowiska Databricks Runtime, która jest stale aktualizowana w celu uwzględnienia najnowszych funkcji. Wersja platformy Spark jest dołączona do wersji środowiska Databricks Runtime i nie można jej zastąpić. |
autotermination_minutes Ponieważ delta Live Tables zarządza automatycznym kończeniem klastra i logiką ponownego użycia, nie można zastąpić czasu automatycznego zakończenia klastra. |
runtime_engine Chociaż to pole można kontrolować, włączając aplikację Photon dla potoku, nie można ustawić tej wartości bezpośrednio. |
effective_spark_version Ta wartość jest automatycznie ustawiana przez system. |
cluster_source To pole jest ustawiane przez system i jest tylko do odczytu. |
docker_image Ponieważ delta Live Tables zarządza cyklem życia klastra, nie można użyć niestandardowego kontenera z klastrami potoków. |
workload_type Ta wartość jest ustawiana przez system i nie można jej zastąpić. |