Odwołanie do właściwości tabel delta Live Tables

Artykuł
10/03/2024

Ten artykuł zawiera informacje dotyczące specyfikacji ustawień ustawień JSON tabel delta Live Tables i właściwości tabeli w usłudze Azure Databricks. Aby uzyskać więcej informacji na temat używania tych różnych właściwości i konfiguracji, zobacz następujące artykuły:

Konfiguracje potoków tabel na żywo usługi Delta

Pola
`id` Typ: `string` Unikatowy identyfikator globalny dla tego potoku. Identyfikator jest przypisywany przez system i nie można go zmienić.
`name` Typ: `string` Przyjazna dla użytkownika nazwa tego potoku. Nazwa może służyć do identyfikowania zadań potoku w interfejsie użytkownika.
`storage` Typ: `string` Lokalizacja w systemie dbFS lub magazynie w chmurze, w której są przechowywane dane wyjściowe i metadane wymagane do wykonania potoku. Tabele i metadane są przechowywane w podkatalogach tej lokalizacji. `storage` Jeśli ustawienie nie zostanie określone, system będzie domyślnie ustawiać lokalizację w programie `dbfs:/pipelines/`. Nie `storage` można zmienić ustawienia po utworzeniu potoku.
`configuration` Typ: `object` Opcjonalna lista ustawień do dodania do konfiguracji platformy Spark klastra, który uruchomi potok. Te ustawienia są odczytywane przez środowisko uruchomieniowe delta Live Tables i dostępne dla zapytań potoku za pośrednictwem konfiguracji platformy Spark. Elementy muszą być sformatowane jako `key:value` pary.
`libraries` Typ: `array of objects` Tablica notesów zawierająca kod potoku i wymagane artefakty.
`clusters` Typ: `array of objects` Tablica specyfikacji klastrów do uruchomienia potoku. Jeśli nie zostanie to określone, potoki będą automatycznie wybierać domyślną konfigurację klastra dla potoku.
`development` Typ: `boolean` Flaga wskazująca, czy należy uruchomić potok w programie `development` lub `production` tryb. Domyślna wartość to `true`
`notifications` Typ: `array of objects` Opcjonalna tablica specyfikacji dla powiadomień e-mail po zakończeniu aktualizacji potoku kończy się niepowodzeniem z błędem z możliwością ponawiania próby, niepowodzeniem z błędem niemożliwym do ponowienia próby lub niepowodzeniem przepływu.
`continuous` Typ: `boolean` Flaga wskazująca, czy potok ma być uruchomiony w sposób ciągły. Domyślna wartość to `false`.
`target` Typ: `string` Nazwa bazy danych do utrwalania danych wyjściowych potoku. Skonfigurowanie `target` ustawienia umożliwia wyświetlanie i wykonywanie zapytań dotyczących danych wyjściowych potoku z interfejsu użytkownika usługi Azure Databricks.
`channel` Typ: `string` Wersja środowiska uruchomieniowego delta Live Tables do użycia. Obsługiwane wartości to: - `preview` aby przetestować potok przy użyciu nadchodzących zmian w wersji środowiska uruchomieniowego. - `current` aby użyć bieżącej wersji środowiska uruchomieniowego. Pole `channel` jest opcjonalne. Wartość domyślna to `current`. Usługa Databricks zaleca używanie bieżącej wersji środowiska uruchomieniowego dla obciążeń produkcyjnych.
`edition` Wpisz `string` Wersja produktu Delta Live Tables w celu uruchomienia potoku. To ustawienie umożliwia wybranie najlepszej wersji produktu na podstawie wymagań potoku: - `CORE` do uruchamiania obciążeń pozyskiwania strumieniowego. - `PRO` w celu uruchamiania pozyskiwania i zmieniania obciążeń przechwytywania danych (CDC). - `ADVANCED` do uruchamiania obciążeń pozyskiwania strumieniowego, obciążeń CDC i obciążeń, które wymagają oczekiwań usługi Delta Live Tables w celu wymuszenia ograniczeń jakości danych. Pole `edition` jest opcjonalne. Wartość domyślna to `ADVANCED`.
`photon` Typ: `boolean` Flaga wskazująca, czy używać funkcji Co to jest photon? do uruchomienia potoku. Photon to aparat Spark o wysokiej wydajności usługi Azure Databricks. Potoki z obsługą fotonu są rozliczane według innej stawki niż potoki inne niż photon. Pole `photon` jest opcjonalne. Domyślna wartość to `false`.
`pipelines.maxFlowRetryAttempts` Typ: `int` Maksymalna liczba prób ponawiania próby ponowienia próby przepływu przed niepowodzeniem aktualizacji potoku w przypadku wystąpienia błędu możliwego do ponowienia próby. Wartość domyślna to dwa. Domyślnie po ponowieniu próby wystąpi błąd, środowisko uruchomieniowe delta Live Tables próbuje uruchomić przepływ trzy razy, w tym oryginalną próbę.
`pipelines.numUpdateRetryAttempts` Typ: `int` Maksymalna liczba prób ponawiania próby ponowienia próby aktualizacji przed niepowodzeniem aktualizacji w przypadku wystąpienia błędu możliwego do ponowienia próby. Ponawianie jest uruchamiane jako pełna aktualizacja. Wartość domyślna to pięć. Ten parametr ma zastosowanie tylko do wyzwalanych aktualizacji uruchamianych w trybie produkcyjnym. Nie ma ponawiania próby po uruchomieniu potoku w trybie programowania.

Właściwości tabeli Tabele na żywo usługi Delta

Uwaga

Właściwości tabeli do kontrolowania zachowania zarządzania grobowca są zastępowane przez ustawienia potoku, a wszystkie istniejące lub nowe potoki powinny używać nowych ustawień potoku. Zobacz Control tombstone management for SCD type 1 queries (Kontrola zarządzania grobowcami dla zapytań typu 1).

Oprócz właściwości tabeli obsługiwanych przez usługę Delta Lake można ustawić następujące właściwości tabeli.

Właściwości tabeli
`pipelines.autoOptimize.managed` Domyślnie: `true` Włącza lub wyłącza automatycznie zaplanowaną optymalizację tej tabeli.
`pipelines.autoOptimize.zOrderCols` Ustawienie domyślne: Brak Opcjonalny ciąg zawierający rozdzielaną przecinkami listę nazw kolumn według kolejności z tej tabeli. Na przykład `pipelines.autoOptimize.zOrderCols = "year,month"`
`pipelines.reset.allowed` Domyślnie: `true` Określa, czy pełne odświeżanie jest dozwolone dla tej tabeli.

Interwał wyzwalacza potoków

Można określić interwał wyzwalacza potoku dla całego potoku delta Live Tables lub w ramach deklaracji zestawu danych. Zobacz Interwał wyzwalacza potoków.

`pipelines.trigger.interval`
Wartość domyślna jest oparta na typie przepływu: - Pięć sekund dla zapytań przesyłania strumieniowego. — Minuta wykonywania zapytań, gdy wszystkie dane wejściowe pochodzą ze źródeł różnicowych. — Dziesięć minut dla pełnych zapytań, gdy niektóre źródła danych mogą nie być delty. Wartość jest liczbą oraz jednostką czasową. Poniżej przedstawiono prawidłowe jednostki czasu: - `second`, `seconds` - `minute`, `minutes` - `hour`, `hours` - `day`, `days` Można użyć jednostki pojedynczej lub mnogiej podczas definiowania wartości, na przykład: - `{"pipelines.trigger.interval" : "1 hour"}` - `{"pipelines.trigger.interval" : "10 seconds"}` - `{"pipelines.trigger.interval" : "30 second"}` - `{"pipelines.trigger.interval" : "1 minute"}` - `{"pipelines.trigger.interval" : "10 minutes"}` - `{"pipelines.trigger.interval" : "10 minute"}`

pipelines.trigger.interval

Wartość domyślna jest oparta na typie przepływu:

- Pięć sekund dla zapytań przesyłania strumieniowego.
— Minuta wykonywania zapytań, gdy wszystkie dane wejściowe pochodzą ze źródeł różnicowych.
— Dziesięć minut dla pełnych zapytań, gdy niektóre źródła danych mogą nie być delty.

Wartość jest liczbą oraz jednostką czasową. Poniżej przedstawiono prawidłowe jednostki czasu:

- second, seconds
- minute, minutes
- hour, hours
- day, days

Można użyć jednostki pojedynczej lub mnogiej podczas definiowania wartości, na przykład:

- {"pipelines.trigger.interval" : "1 hour"}
- {"pipelines.trigger.interval" : "10 seconds"}
- {"pipelines.trigger.interval" : "30 second"}
- {"pipelines.trigger.interval" : "1 minute"}
- {"pipelines.trigger.interval" : "10 minutes"}
- {"pipelines.trigger.interval" : "10 minute"}

Atrybuty klastra, które nie są konfigurowalne przez użytkownika

Ponieważ tabele delta Live Tables zarządzają cyklami życia klastra, wiele ustawień klastra jest ustawianych przez tabele na żywo delty i nie można ich ręcznie skonfigurować w konfiguracji potoku lub w zasadach klastra używanych przez potok. W poniższej tabeli wymieniono te ustawienia i przyczyny, których nie można ustawić ręcznie.

Pola
`cluster_name` Funkcja Delta Live Tables ustawia nazwy klastrów używanych do uruchamiania aktualizacji potoku. Tych nazw nie można zastąpić.
`data_security_mode` `access_mode` Te wartości są automatycznie ustawiane przez system.
`spark_version` Klastry Delta Live Tables działają w niestandardowej wersji środowiska Databricks Runtime, która jest stale aktualizowana w celu uwzględnienia najnowszych funkcji. Wersja platformy Spark jest dołączona do wersji środowiska Databricks Runtime i nie można jej zastąpić.
`autotermination_minutes` Ponieważ delta Live Tables zarządza automatycznym kończeniem klastra i logiką ponownego użycia, nie można zastąpić czasu automatycznego zakończenia klastra.
`runtime_engine` Chociaż to pole można kontrolować, włączając aplikację Photon dla potoku, nie można ustawić tej wartości bezpośrednio.
`effective_spark_version` Ta wartość jest automatycznie ustawiana przez system.
`cluster_source` To pole jest ustawiane przez system i jest tylko do odczytu.
`docker_image` Ponieważ delta Live Tables zarządza cyklem życia klastra, nie można użyć niestandardowego kontenera z klastrami potoków.
`workload_type` Ta wartość jest ustawiana przez system i nie można jej zastąpić.

Udostępnij za pośrednictwem

Odwołanie do właściwości tabel delta Live Tables

Konfiguracje potoków tabel na żywo usługi Delta

Właściwości tabeli Tabele na żywo usługi Delta

Interwał wyzwalacza potoków

Atrybuty klastra, które nie są konfigurowalne przez użytkownika

Opinia

Dodatkowe zasoby