Confiabilidade para o data lakehouse

Artigo
05/30/2024

Os princípios arquitetónicos do pilar da fiabilidade abordam a capacidade de um sistema recuperar de falhas e continuar a funcionar.

Diagrama de arquitetura lakehouse de confiabilidade para Databricks.

Princípios de fiabilidade

Projeto para falhas

Em um ambiente altamente distribuído, podem ocorrer interrupções. Tanto para a plataforma quanto para as várias cargas de trabalho - como trabalhos de streaming, trabalhos em lote, treinamento de modelos e consultas de BI - as falhas devem ser antecipadas e soluções resilientes devem ser desenvolvidas para aumentar a confiabilidade. O foco está em projetar aplicativos para recuperar rapidamente e, na melhor das hipóteses, automaticamente.
Gerenciar a qualidade dos dados

A qualidade dos dados é fundamental para obter insights precisos e significativos a partir dos dados. A qualidade dos dados tem muitas dimensões, incluindo integridade, precisão, validade e consistência. Deve ser ativamente gerido para melhorar a qualidade dos conjuntos de dados finais, de modo a que os dados sirvam de informação fiável e fiável para os utilizadores empresariais.
Design para dimensionamento automático

Processos de ETL padrão, relatórios de negócios e painéis geralmente têm requisitos de recursos previsíveis em termos de memória e computação. No entanto, novos projetos, tarefas sazonais ou abordagens avançadas, como treinamento de modelos (para rotatividade, previsão e manutenção), criam picos nos requisitos de recursos. Para uma organização lidar com todas essas cargas de trabalho, ela precisa de uma plataforma de armazenamento e computação escalável. Adicionar novos recursos conforme necessário deve ser fácil, e apenas o consumo real deve ser cobrado. Uma vez terminado o pico, os recursos podem ser libertados e os custos reduzidos em conformidade. Isso é frequentemente chamado de dimensionamento horizontal (número de nós) e dimensionamento vertical (tamanho dos nós).
Procedimentos de recuperação de teste

Uma estratégia de recuperação de desastres em toda a empresa para a maioria dos aplicativos e sistemas requer uma avaliação de prioridades, capacidades, limitações e custos. Uma abordagem confiável de recuperação de desastres testa regularmente como as cargas de trabalho falham e valida os procedimentos de recuperação. A automação pode ser usada para simular diferentes falhas ou recriar cenários que causaram falhas no passado.
Automatize implantações e cargas de trabalho

A automatização de implantações e cargas de trabalho para o lakehouse ajuda a padronizar esses processos, eliminar erros humanos, melhorar a produtividade e fornecer maior repetibilidade. Isso inclui o uso de "configuração como código" para evitar desvios de configuração e "infraestrutura como código" para automatizar o provisionamento de todos os serviços de lagoa e nuvem necessários.
Monitorar sistemas e cargas de trabalho

As cargas de trabalho na lakehouse normalmente integram serviços da plataforma Databricks e serviços de nuvem externos, por exemplo, como fontes de dados ou destinos. A execução bem-sucedida só pode ocorrer se cada serviço na cadeia de execução estiver funcionando corretamente. Quando esse não é o caso, o monitoramento, o alerta e o registro em log são importantes para detetar e rastrear problemas e entender o comportamento do sistema.

Próximo: Práticas recomendadas para confiabilidade

Consulte Práticas recomendadas para confiabilidade.

Partilhar via

Confiabilidade para o data lakehouse

Princípios de fiabilidade

Próximo: Práticas recomendadas para confiabilidade

Comentários

Recursos adicionais