Configurar um pipeline de tabelas dinâmicas do Delta sem servidor
Este artigo descreve as configurações para pipelines do Delta Live Tables sem servidor.
O Databricks recomenda o desenvolvimento de novos pipelines usando sem servidor. Algumas cargas de trabalho podem exigir a configuração da computação clássica ou o trabalho com o metastore herdado do Hive. Consulte Configurar computação para um pipeline do Delta Live Tables e Usar pipelines do Delta Live Tables com o metastore herdado do Hive.
Observação
Os pipelines sem servidor sempre usam o Catálogo do Unity. O Catálogo do Unity para Delta Live Tables está em Visualização Pública e tem algumas limitações. Consulte Usar o Catálogo do Unity com seus pipelines das Tabelas Dinâmicas do Delta.
Não é possível adicionar manualmente configurações de computação em um
clusters
objeto na configuração JSON para um pipeline sem servidor. Caso isso seja feito, será gerado um erro.Para obter informações sobre qualificação e habilitação para pipelines DLT sem servidor, consulte Habilitar computação sem servidor.
Se você precisar usar uma conexão de Link Privado do Azure com seus pipelines DLT sem servidor, entre em contato com seu representante do Databricks.
Requisitos
Seu workspace deve ter o Catálogo do Unity habilitado para usar pipelines sem servidor.
O workspace deve estar em uma região habilitada para uso sem servidor.
Configuração recomendada para pipelines sem servidor
Importante
A permissão de criação de cluster não é necessária para configurar pipelines sem servidor. Por padrão, todos os usuários do workspace podem usar pipelines sem servidor.
Os pipelines sem servidor removem a maioria das opções de configuração, pois o Azure Databricks gerencia toda a infraestrutura. Para configurar um pipeline sem servidor, faça o seguinte:
- Clique em Delta Live Tables na barra lateral.
- Clique em Criar Pipeline.
- Forneça um nome de pipeline exclusivo.
- Marque a caixa ao lado de Sem servidor.
- Use o seletor de arquivos para configurar notebooks e arquivos de workspace como código-fonte.
- Você deve adicionar pelo menos um ativo de código-fonte.
- Use o botão Adicionar código-fonte para adicionar ativos de código-fonte adicionais.
- Selecione um Catálogo para publicar dados.
- Selecione um Esquema no catálogo. Todas as tabelas de streaming e exibições materializadas definidas no pipeline são criadas nesse esquema.
- Clique em Criar.
Essas configurações recomendadas criam um novo pipeline configurado para ser executado no modo Disparado e no canal Atual . Essa configuração é recomendada para muitos casos de uso, incluindo desenvolvimento e teste, e é adequada para cargas de trabalho de produção que devem ser executadas em um agendamento. Para obter detalhes sobre como agendar pipelines, consulte Tarefa de pipeline do Delta Live Tables para trabalhos.
Você também pode converter pipelines existentes configurados com o Catálogo do Unity para usar sem servidor. Consulte Converter um pipeline existente para usar sem servidor.
Outras considerações de configuração
As seguintes opções de configuração também estão disponíveis para pipelines sem servidor:
- Você pode optar por usar o modo de pipeline contínuo ao executar pipelines em produção. Consulte Modo de pipeline disparado vs. contínuo.
- Adicione notificações para atualizações por email com base em condições de sucesso ou falha. Confira Adicionar notificações por email para eventos de pipeline.
- Use o campo Configuração para definir pares de chave-valor para o pipeline. Essas configurações servem a duas finalidades:
- Defina parâmetros arbitrários que você pode referenciar em seu código-fonte. Consulte Usar parâmetros com pipelines do Delta Live Tables.
- Defina as configurações do pipeline e as configurações do Spark. Consulte Referência de propriedades do Delta Live Tables.
- Use o canal de visualização para testar seu pipeline em relação às alterações pendentes do tempo de execução do Delta Live Tables e testar novos recursos.
Recursos de pipeline sem servidor
Além de simplificar a configuração, os pipelines sem servidor têm os seguintes recursos:
- Atualização incremental para exibições materializadas: as atualizações para exibições materializadas são atualizadas incrementalmente sempre que possível. A atualização incremental tem os mesmos resultados que a recomputação completa. A atualização usa uma atualização completa se os resultados não puderem ser calculados de forma incremental. Confira Operações de atualização para exibições materializadas.
- Pipelining de fluxo: para melhorar a utilização, a taxa de transferência e a latência para o fluxo de cargas de trabalho de dados, como ingestão de dados, os microlotes executam em pipelines. Em outras palavras, em vez de executar microlotes sequencialmente como o Spark Structured Streaming padrão, os pipelines DLT sem servidor executam microlotes simultaneamente, melhorando a utilização de recursos de computação. O pipelining de fluxo é habilitado por padrão em pipelines DLT sem servidor.
- Dimensionamento automático vertical: pipelines DLT sem servidor são adicionados ao dimensionamento automático horizontal fornecido pelo dimensionamento automático aprimorado do Databricks, alocando automaticamente os tipos de instância mais econômicos que podem executar o pipeline do Delta Live Tables sem falhar devido a erros de falta de memória. Consulte O que é dimensionamento automático vertical?
O que é dimensionamento automático vertical?
O dimensionamento automático vertical de pipelines DLT sem servidor aloca automaticamente os tipos de instância disponíveis mais econômicos para executar atualizações de pipeline do Delta Live Tables sem falhar devido a erros de memória insuficiente. O dimensionamento automático vertical escala verticalmente quando tipos de instância maiores são necessários para executar uma atualização de pipeline e também reduz verticalmente quando determina que a atualização pode executar com tipos de instância menores. O dimensionamento automático vertical determina se os nós de driver, os nós de trabalho ou ambos os nós de driver e de trabalho devem escalar verticalmente ou reduzir verticalmente.
O dimensionamento automático vertical é utilizado por todos os pipelines DLT sem servidor, incluindo os pipelines usados pelas exibições materializadas do SQL do Databricks e tabelas de fluxo.
O dimensionamento automático vertical funciona detectando as atualizações de pipeline que falharam devido a erros de memória insuficiente. O dimensionamento automático vertical aloca tipos de instância maiores quando essas falhas são detectadas com base nos dados de falta de memória coletados da atualização com falha. No modo de produção, uma nova atualização que utiliza os novos recursos de computação iniciará automaticamente. No modo de desenvolvimento, os novos recursos de computação serão utilizados quando você iniciar uma nova atualização manualmente.
Se o dimensionamento automático vertical detectar que a memória das instâncias alocadas está consistentemente subutilizada, ele reduzirá os tipos de instância que serão utilizadas na próxima atualização do pipeline.
Converter um pipeline existente para usar sem servidor
Você pode converter pipelines existentes configurados com o Catálogo do Unity em pipelines sem servidor. Conclua as seguintes etapas:
- Clique em Delta Live Tables na barra lateral.
- Clique no nome do pipeline desejado na lista.
- Clique em Configurações.
- Marque a caixa ao lado de Sem servidor.
- Clique em Salvar e iniciar.
Importante
Quando você habilitar sem servidor, todas as configurações de computação configuradas para um pipeline serão removidas. Se você alternar um pipeline de volta para atualizações sem servidor, deverá reconfigurar as configurações de computação desejadas para a configuração do pipeline.
Como posso encontrar o uso de DBU de um pipeline sem servidor?
Você pode encontrar o uso de DBU de pipelines DLT sem servidor consultando a tabela de uso faturável, parte das tabelas do sistema do Azure Databricks. Confira Qual é o consumo de DBU de um pipeline DLT sem servidor?.