Confiabilidade para o data lakehouse

Os princípios arquitetónicos do pilar da fiabilidade abordam a capacidade de um sistema recuperar de falhas e continuar a funcionar.

Diagrama de arquitetura lakehouse de confiabilidade para Databricks.

Princípios de fiabilidade

  1. Projeto para falhas

    Em um ambiente altamente distribuído, podem ocorrer interrupções. Tanto para a plataforma quanto para as várias cargas de trabalho - como trabalhos de streaming, trabalhos em lote, treinamento de modelos e consultas de BI - as falhas devem ser antecipadas e soluções resilientes devem ser desenvolvidas para aumentar a confiabilidade. O foco está em projetar aplicativos para recuperar rapidamente e, na melhor das hipóteses, automaticamente.

  2. Gerenciar a qualidade dos dados

    A qualidade dos dados é fundamental para obter insights precisos e significativos a partir dos dados. A qualidade dos dados tem muitas dimensões, incluindo integridade, precisão, validade e consistência. Deve ser ativamente gerido para melhorar a qualidade dos conjuntos de dados finais, de modo a que os dados sirvam de informação fiável e fiável para os utilizadores empresariais.

  3. Design para dimensionamento automático

    Processos de ETL padrão, relatórios de negócios e painéis geralmente têm requisitos de recursos previsíveis em termos de memória e computação. No entanto, novos projetos, tarefas sazonais ou abordagens avançadas, como treinamento de modelos (para rotatividade, previsão e manutenção), criam picos nos requisitos de recursos. Para uma organização lidar com todas essas cargas de trabalho, ela precisa de uma plataforma de armazenamento e computação escalável. Adicionar novos recursos conforme necessário deve ser fácil, e apenas o consumo real deve ser cobrado. Uma vez terminado o pico, os recursos podem ser libertados e os custos reduzidos em conformidade. Isso é frequentemente chamado de dimensionamento horizontal (número de nós) e dimensionamento vertical (tamanho dos nós).

  4. Procedimentos de recuperação de teste

    Uma estratégia de recuperação de desastres em toda a empresa para a maioria dos aplicativos e sistemas requer uma avaliação de prioridades, capacidades, limitações e custos. Uma abordagem confiável de recuperação de desastres testa regularmente como as cargas de trabalho falham e valida os procedimentos de recuperação. A automação pode ser usada para simular diferentes falhas ou recriar cenários que causaram falhas no passado.

  5. Automatize implantações e cargas de trabalho

    A automatização de implantações e cargas de trabalho para o lakehouse ajuda a padronizar esses processos, eliminar erros humanos, melhorar a produtividade e fornecer maior repetibilidade. Isso inclui o uso de "configuração como código" para evitar desvios de configuração e "infraestrutura como código" para automatizar o provisionamento de todos os serviços de lagoa e nuvem necessários.

  6. Monitorar sistemas e cargas de trabalho

    As cargas de trabalho na lakehouse normalmente integram serviços da plataforma Databricks e serviços de nuvem externos, por exemplo, como fontes de dados ou destinos. A execução bem-sucedida só pode ocorrer se cada serviço na cadeia de execução estiver funcionando corretamente. Quando esse não é o caso, o monitoramento, o alerta e o registro em log são importantes para detetar e rastrear problemas e entender o comportamento do sistema.

Próximo: Práticas recomendadas para confiabilidade

Consulte Práticas recomendadas para confiabilidade.