Recomendações de otimização no Azure Databricks

O Azure Databricks fornece muitas otimizações que dão suporte a uma variedade de cargas de trabalho no lakehouse, desde processamento de ETL em grande escala até consultas interativas ad-hoc. Muitas dessas otimizações ocorrem automaticamente. Você obtém seus benefícios simplesmente usando o Azure Databricks. Além disso, a maioria dos recursos do Databricks Runtime exigem Delta Lake, o formato padrão usado para criar tabelas no Azure Databricks.

O Azure Databricks configura valores padrão que otimizam a maioria das cargas de trabalho. Mas, em alguns casos, a alteração das configurações aprimora o desempenho.

Aprimoramentos de desempenho do Databricks Runtime

Observação

Use o Databricks Runtime mais recente para aproveitar os aprimoramentos de desempenho mais recentes. Todos os comportamentos documentados aqui são habilitados por padrão no Databricks Runtime 10.4 LTS e superior.

Recomendações do Databricks para aprimorar o desempenho

  • Você pode clonar tabelas no Azure Databricks para fazer cópias profundas ou superficiais de conjuntos de dados de origem.
  • O otimizador baseado em custo acelera o desempenho da consulta aproveitando as estatísticas da tabela.
  • Você pode usar o SQL do Spark para interagir com dados JSON sem analisar cadeias de caracteres.
  • As funções de ordem mais alta fornecem desempenho interno e otimizado para muitas operações que não têm operadores Spark comuns. As funções de ordem mais altas fornecem um benefício de desempenho em relação às funções definidas pelo usuário.
  • O Azure Databricks fornece uma série de operadores internos e sintaxe especial para trabalhar com tipos de dados complexos, incluindo matrizes, structs e cadeias de caracteres JSON.
  • Você pode ajustar manualmente as configurações para junções de intervalo. Consulte Otimização de junção de intervalo.

Comportamentos de aceitação

  • O Azure Databricks fornece uma garantia de isolamento serializável de gravação por padrão; alterar o nível de isolamento para serializável poderá reduzir a taxa de transferência para operações simultâneas, mas poderá ser necessário quando a serialização de leitura for necessária.
  • Você pode usar índices de filtro bloom para reduzir a probabilidade de digitalizar arquivos de dados que não contêm registros correspondentes a uma determinada condição.