Otimizar o uso dos cluster de pipelines Delta Live Tables com dimensionamento automático aprimorado

O Dimensionamento Automático Aprimorado do Databricks otimiza a utilização do cluster alocando automaticamente recursos de cluster com base no volume de carga de trabalho, com impacto mínimo na latência de processamento de dados de seus pipelines.

O Dimensionamento automático aprimorado melhora a funcionalidade de dimensionamento automático do cluster do Azure Databricks com os seguintes recursos:

  • O dimensionamento automático aprimorado implementa a otimização de cargas de trabalho de transmissão e contribui com aprimoramentos para melhorar o desempenho das cargas de trabalho em lotes. O dimensionamento automático aprimorado otimiza os custos adicionando ou removendo computadores à medida que a carga de trabalho muda.
  • O dimensionamento automático aprimorado desliga proativamente os nós subutilizados, garantindo que não haja tarefas com falha durante o desligamento. O recurso de dimensionamento automático de cluster existente reduzirá os nós somente se o nó estiver ocioso.

O Dimensionamento automático aprimorado é o modo de dimensionamento automático padrão quando você cria um pipeline na interface do usuário do Delta Live Tables. Você pode habilitar o Dimensionamento automático avançado para pipelines existentes editando as configurações do pipeline na interface do usuário. Você também pode habilitar o Dimensionamento automático avançado ao criar ou editar pipelines com a API do Delta Live Tables.

Habilitar o Dimensionamento automático avançado

Observação

Como os recursos de computação são otimizados automaticamente para pipelines de pipelines DLT sem servidor, as configurações para o Dimensionamento Automático Aprimorado do Databricks não estão disponíveis quando você seleciona Sem servidor para um pipeline.

Para saber mais sobre como habilitar pipelines DLT sem servidor, entre em contato com a equipe da sua conta do Azure Databricks.

Para usar o Dimensionamento automático avançado, siga um destes procedimentos:

  • Defina o Modo do cluster como Dimensionamento automático aprimorado ao criar um pipeline ou editar um pipeline na interface do usuário do Delta Live Tables.
  • Adicione a configuração autoscale à configuração do cluster de pipeline e defina o campo mode como ENHANCED. Consulte Definir as configurações de computação.

Siga as seguintes diretrizes ao configurar o Dimensionamento Automático Aprimorado para pipelines de produção:

  • Mantenha a configuração Min workers padrão.
  • Defina a configuração Max workers para um valor com base no orçamento e na prioridade do pipeline.

O exemplo a seguir configura um cluster de dimensionamento automático aprimorado com um mínimo de 5 trabalhadores e um máximo de 10 trabalhadores. max_workers deve ser maior ou igual a min_workers.

Observação

  • O dimensionamento automático aprimorado está disponível somente para clusters updates. O recurso de dimensionamento automático existente é usado para clusters maintenance.
  • A configuração autoscale tem dois modos:
{
  "clusters": [
    {
      "autoscale": {
        "min_workers": 5,
        "max_workers": 10,
        "mode": "ENHANCED"
      }
    }
  ]
}

O pipeline será reiniciado automaticamente depois que a configuração de dimensionamento automático for alterada se o pipeline estiver configurado para execução contínua. Após a reinicialização, espere um curto período de maior latência. Após esse breve período de maior latência, o tamanho do cluster deve ser atualizado com base em sua configuração autoscale e a latência do pipeline retornada para suas características de latência anteriores.

Monitoramento de pipelines habilitados para dimensionamento automático aprimorado

Você pode usar o log de eventos na interface do usuário do Delta Live Tables para monitorar métricas avançadas de dimensionamento automático. Eventos de dimensionamento automático aprimorados têm o tipo de evento autoscale. Estes são os eventos de exemplo:

Evento Mensagem
Solicitação de redimensionamento de cluster iniciada Scaling [up or down] to <y> executors from current cluster size of <x>
Solicitação de redimensionamento de cluster bem-sucedida Achieved cluster size <x> for cluster <cluster-id> with status SUCCEEDED
Solicitação de redimensionamento de cluster parcialmente bem-sucedida Achieved cluster size <x> for cluster <cluster-id> with status PARTIALLY_SUCCEEDED
Solicitação de redimensionamento de cluster com falha Achieved cluster size <x> for cluster <cluster-id> with status FAILED

Você também pode exibir eventos do dimensionamento automático aprimorado consultando diretamente o log de eventos: