Arquitetura Data lakehouse: estrutura bem arquitetada Databricks

Este conjunto de artigos de arquitetura data lakehouse fornece princípios e práticas recomendadas para a implementação e operação de uma lakehouse usando o Azure Databricks.

Databricks estrutura bem arquitetada para a casa do lago

Estrutura bem arquitetada: diagrama de data lakehouse.

O lakehouse bem arquitetado é composto por 7 pilares que descrevem diferentes áreas de preocupação para a implementação de um data lakehouse na nuvem:

  • Governança de dados

    A supervisão para garantir que os dados agreguem valor e apoiem sua estratégia de negócios.

  • Interoperabilidade e usabilidade

    A capacidade da casa do lago para interagir com os usuários e outros sistemas.

  • Excelência operacional

    Todos os processos operacionais que mantêm a casa do lago funcionando em produção.

  • Segurança, privacidade e conformidade

    Proteja o aplicativo Azure Databricks, as cargas de trabalho e os dados do cliente contra ameaças.

  • Fiabilidade

    A capacidade de um sistema em recuperar de falhas e continuar a funcionar.

  • Eficiência do desempenho

    A capacidade que um sistema tem de se adaptar às alterações na carga.

  • Otimização de custos

    Gerir os custos para maximizar o valor.

O lakehouse bem arquitetado estende o Microsoft Azure Well-Architected Framework para a Databricks Data Intelligence Platform e compartilha os pilares "Excelência Operacional", "Segurança" (como "Segurança, privacidade e conformidade"), "Confiabilidade", "Eficiência de Desempenho" e "Otimização de Custos".

Para esses cinco pilares, os princípios e as melhores práticas da estrutura de nuvem ainda se aplicam ao lakehouse. A casa do lago bem arquitetada estende-os com princípios e melhores práticas que são específicos para a casa do lago e importantes para construir uma casa do lago eficaz e eficiente.

Governança e Interoperabilidade de Dados e Usabilidade em arquiteturas lakehouse

Os pilares "Governança de Dados" e "Interoperabilidade e Usabilidade" abrangem preocupações específicas da casa do lago.

A governança de dados encapsula as políticas e práticas implementadas para gerenciar com segurança os ativos de dados dentro de uma organização. Um dos aspetos fundamentais de um lakehouse é a governança centralizada de dados: o lakehouse unifica o armazenamento de dados e casos de uso de IA em uma única plataforma. Isso simplifica a pilha de dados moderna, eliminando os silos de dados que tradicionalmente separam e complicam a engenharia de dados, análises, BI, ciência de dados e aprendizado de máquina. Para simplificar a governança de dados, o lakehouse oferece uma solução de governança unificada para dados, análises e IA. Ao minimizar as cópias de seus dados e mudar para uma única camada de processamento de dados, onde todos os seus controles de governança de dados podem ser executados juntos, você aumenta suas chances de permanecer em conformidade e detetar uma violação de dados.

Outro princípio importante do lakehouse é proporcionar uma ótima experiência de usuário para todas as personas que trabalham com ele, e ser capaz de interagir com um amplo ecossistema de sistemas externos. O Azure já tem uma variedade de ferramentas de dados que executam a maioria das tarefas que uma empresa orientada por dados pode precisar. No entanto, essas ferramentas devem ser montadas corretamente para fornecer todas as funcionalidades, com cada serviço oferecendo uma experiência de usuário diferente. Essa abordagem pode levar a altos custos de implementação e normalmente não fornece a mesma experiência do usuário que uma plataforma nativa lakehouse: os usuários são limitados por inconsistências entre as ferramentas e pela falta de recursos de colaboração, e muitas vezes precisam passar por processos complexos para obter acesso ao sistema e, portanto, aos dados.

Um lakehouse integrado do outro lado fornece uma experiência de usuário consistente em todas as cargas de trabalho e, portanto, aumenta a usabilidade. Isso reduz os custos de treinamento e integração e melhora a colaboração entre as funções. Além disso, novos recursos são adicionados automaticamente ao longo do tempo - para melhorar ainda mais a experiência do usuário - sem a necessidade de investir recursos internos e orçamentos.

Uma abordagem multinuvem pode ser uma estratégia deliberada de uma empresa ou o resultado de fusões e aquisições ou unidades de negócios independentes que selecionam diferentes provedores de nuvem. Nesse caso, o uso de um lakehouse multinuvem resulta em uma experiência de usuário unificada em todas as nuvens. Isso reduz a proliferação de sistemas em toda a empresa, o que, por sua vez, reduz os requisitos de habilidade e treinamento dos funcionários envolvidos em tarefas orientadas por dados.

Finalmente, em um mundo em rede com processos de negócios entre empresas, os sistemas devem trabalhar juntos da forma mais perfeita possível. O grau de interoperabilidade é um critério crucial aqui, e os dados mais recentes, como um ativo central de qualquer negócio, devem fluir com segurança entre os sistemas dos parceiros internos e externos.

Princípios e melhores práticas