Eficiência de desempenho para o data lakehouse

Este artigo aborda os princípios arquitetônicos do pilar de eficiência de desempenho, referindo-se à capacidade de um sistema de se adaptar a mudanças de carga.

Diagrama de arquitetura lakehouse de eficiência de desempenho para Databricks.

Princípios de eficiência de desempenho

  1. Utilizar arquiteturas sem servidor

    As arquiteturas sem servidor não exigem que os clientes operem e mantenham a infraestrutura de computação na nuvem. Isso elimina a sobrecarga operacional do gerenciamento da infraestrutura de nuvem e reduz os custos de transação porque os serviços gerenciados operam em escala de nuvem. Eles também fornecem disponibilidade imediata, segurança pronta para uso e exigem configuração ou administração mínimas.

  2. Projetar cargas de trabalho para desempenho

    Para cargas de trabalho repetidas, como pipelines de engenharia de dados, o desempenho nunca deve ser uma reflexão tardia. Os dados devem ser:

    • Leia eficientemente a partir da memória do objeto.
    • Transformado de forma eficiente.
    • Eficientemente publicado para consumo.

    Além disso, a maioria dos gasodutos ou padrões de consumo utiliza uma cadeia de sistemas. Para alcançar o melhor desempenho possível, toda a cadeia deve ser considerada e selecionada para o melhor desempenho.

  3. Executar testes de desempenho no âmbito do desenvolvimento

    Toda carga de trabalho de desenvolvimento deve passar por testes contínuos de desempenho. Os testes garantem que qualquer alteração na base de código não afete negativamente o desempenho da carga de trabalho. Estabeleça um cronograma regular para a execução de testes. Execute o teste como parte de um evento agendado ou como parte de um pipeline de compilação de integração contínua.

    Estabelecer linhas de base de desempenho e determinar a eficiência atual das cargas de trabalho e da infraestrutura de suporte. A medição do desempenho em relação às linhas de base pode fornecer estratégias de melhoria e determinar se o aplicativo atende aos objetivos de negócios.

    Identifique gargalos que possam estar afetando o desempenho. Esses gargalos podem ser causados por erros de código ou configuração incorreta de um serviço. Normalmente, os gargalos pioram à medida que a carga aumenta.

  4. Monitorizar o desempenho

    Certifique-se de que os recursos e serviços permaneçam acessíveis e que o desempenho atenda às expectativas dos usuários ou aos requisitos de carga de trabalho. O monitoramento pode ajudá-lo a identificar gargalos ou recursos insuficientes, otimizar configurações e detetar erros de pipeline/carga de trabalho.

Próximo: Práticas recomendadas para eficiência de desempenho

Consulte Práticas recomendadas para eficiência de desempenho.