Otimizar o uso dos cluster de pipelines Delta Live Tables com dimensionamento automático aprimorado

Artigo
07/12/2024

O Dimensionamento Automático Aprimorado do Databricks otimiza a utilização do cluster alocando automaticamente recursos de cluster com base no volume de carga de trabalho, com impacto mínimo na latência de processamento de dados de seus pipelines.

O Dimensionamento automático aprimorado melhora a funcionalidade de dimensionamento automático do cluster do Azure Databricks com os seguintes recursos:

O dimensionamento automático aprimorado implementa a otimização de cargas de trabalho de transmissão e contribui com aprimoramentos para melhorar o desempenho das cargas de trabalho em lotes. O dimensionamento automático aprimorado otimiza os custos adicionando ou removendo computadores à medida que a carga de trabalho muda.
O dimensionamento automático aprimorado desliga proativamente os nós subutilizados, garantindo que não haja tarefas com falha durante o desligamento. O recurso de dimensionamento automático de cluster existente reduzirá os nós somente se o nó estiver ocioso.

O Dimensionamento automático aprimorado é o modo de dimensionamento automático padrão quando você cria um pipeline na interface do usuário do Delta Live Tables. Você pode habilitar o Dimensionamento automático avançado para pipelines existentes editando as configurações do pipeline na interface do usuário. Você também pode habilitar o Dimensionamento automático avançado ao criar ou editar pipelines com a API do Delta Live Tables.

Habilitar o Dimensionamento automático avançado

Observação

Como os recursos de computação são otimizados automaticamente para pipelines de pipelines DLT sem servidor, as configurações para o Dimensionamento Automático Aprimorado do Databricks não estão disponíveis quando você seleciona Sem servidor para um pipeline.

Para saber mais sobre como habilitar pipelines DLT sem servidor, entre em contato com a equipe da sua conta do Azure Databricks.

Para usar o Dimensionamento automático avançado, siga um destes procedimentos:

Defina o Modo do cluster como Dimensionamento automático aprimorado ao criar um pipeline ou editar um pipeline na interface do usuário do Delta Live Tables.
Adicione a configuração autoscale à configuração do cluster de pipeline e defina o campo mode como ENHANCED. Consulte Definir as configurações de computação.

Siga as seguintes diretrizes ao configurar o Dimensionamento Automático Aprimorado para pipelines de produção:

Mantenha a configuração Min workers padrão.
Defina a configuração Max workers para um valor com base no orçamento e na prioridade do pipeline.

O exemplo a seguir configura um cluster de dimensionamento automático aprimorado com um mínimo de 5 trabalhadores e um máximo de 10 trabalhadores. max_workers deve ser maior ou igual a min_workers.

Observação

O dimensionamento automático aprimorado está disponível somente para clusters updates. O recurso de dimensionamento automático existente é usado para clusters maintenance.
A configuração autoscale tem dois modos:
- LEGACY: use dimensionamento automático do cluster.
- ENHANCED: usar o Dimensionamento Automático Aprimorado.

{
  "clusters": [
    {
      "autoscale": {
        "min_workers": 5,
        "max_workers": 10,
        "mode": "ENHANCED"
      }
    }
  ]
}

O pipeline será reiniciado automaticamente depois que a configuração de dimensionamento automático for alterada se o pipeline estiver configurado para execução contínua. Após a reinicialização, espere um curto período de maior latência. Após esse breve período de maior latência, o tamanho do cluster deve ser atualizado com base em sua configuração autoscale e a latência do pipeline retornada para suas características de latência anteriores.

Monitoramento de pipelines habilitados para dimensionamento automático aprimorado

Você pode usar o log de eventos na interface do usuário do Delta Live Tables para monitorar métricas avançadas de dimensionamento automático. Eventos de dimensionamento automático aprimorados têm o tipo de evento autoscale. Estes são os eventos de exemplo:

Evento	Mensagem
Solicitação de redimensionamento de cluster iniciada	`Scaling [up or down] to <y> executors from current cluster size of <x>`
Solicitação de redimensionamento de cluster bem-sucedida	`Achieved cluster size <x> for cluster <cluster-id> with status SUCCEEDED`
Solicitação de redimensionamento de cluster parcialmente bem-sucedida	`Achieved cluster size <x> for cluster <cluster-id> with status PARTIALLY_SUCCEEDED`
Solicitação de redimensionamento de cluster com falha	`Achieved cluster size <x> for cluster <cluster-id> with status FAILED`

Você também pode exibir eventos do dimensionamento automático aprimorado consultando diretamente o log de eventos:

Para consultar o log de eventos em busca de métricas de backlog, confira Monitoramento da lista de pendências de dados consultando o log de eventos.
Para monitorar solicitações e respostas de redimensionamento de cluster durante operações avançadas de dimensionamento automático, confira Monitorar eventos de dimensionamento automático aprimorados do log de eventos.

Compartilhar via

Otimizar o uso dos cluster de pipelines Delta Live Tables com dimensionamento automático aprimorado

Habilitar o Dimensionamento automático avançado

Monitoramento de pipelines habilitados para dimensionamento automático aprimorado

Comentários

Recursos adicionais