Interoperabilidade e usabilidade para o data lakehouse

Este artigo aborda os princípios arquitetônicos do pilar de interoperabilidade e usabilidade , referindo-se à interação do lakehouse com usuários e outros sistemas. Uma das ideias fundamentais do lakehouse é proporcionar uma ótima experiência de usuário para todas as personas que trabalham com ele, e poder interagir com um amplo ecossistema de sistemas externos.

  • A interoperabilidade é a capacidade de um sistema trabalhar com outros sistemas e integrá-los com eles. Implica a interação entre diferentes componentes e produtos, possivelmente de vários fornecedores, e entre versões passadas e futuras do mesmo produto.
  • A usabilidade é a medida de quão bem um sistema permite que os usuários executem tarefas de forma segura, eficaz e eficiente.

Interoperabilidade e usabilidade diagrama de arquitetura lakehouse para Databricks.

Seguir os princípios deste pilar ajuda a:

  • Obtenha uma experiência de usuário consistente e colaborativa.
  • Aproveite as sinergias entre nuvens.
  • Simplifique a integração de e para a casa do lago.
  • Reduza os custos de treinamento e capacitação.

E, em última análise, levar a um time-to-value mais rápido.

Princípios de interoperabilidade e usabilidade

  1. Definir padrões para integração

    A integração tem diferentes aspetos e pode ser feita de muitas maneiras diferentes. Para evitar a proliferação de ferramentas e abordagens, devem ser definidas as melhores práticas e deve ser fornecida uma lista de ferramentas e conectores preferidos e bem apoiados.

    Um dos princípios arquitetónicos fundamentais é a modularidade e o acoplamento flexível, em vez de uma integração apertada. Isso reduz as dependências entre componentes e cargas de trabalho, ajuda a eliminar efeitos colaterais e permite o desenvolvimento independente em diferentes escalas de tempo. Use conjuntos de dados e seu esquema como um contrato. Separe cargas de trabalho, como trabalhos de disputa de dados (como carregar e transformar dados em um data lake) de trabalhos de valor agregado (por exemplo, relatórios, painéis e engenharia de recursos de ciência de dados). Defina um catálogo de dados central com diretrizes para formatos de dados, qualidade de dados e ciclo de vida dos dados.

  2. Utilizar interfaces abertas e formatos de dados abertos

    Muitas vezes, são desenvolvidas soluções em que os dados só podem ser acedidos através de um sistema específico. Isso pode levar ao bloqueio do fornecedor, mas também pode se tornar um enorme fator de custo se o acesso aos dados por meio desse sistema estiver sujeito a taxas de licença. A utilização de formatos e interfaces de dados abertos ajuda a evitar esta situação. Eles também simplificam a integração com sistemas existentes e abrem um ecossistema de parceiros que já integraram suas ferramentas com o lakehouse.

    Se você usar ecossistemas de código aberto, como Python ou R para ciência de dados, ou Spark ou ANSI SQL para acesso a dados e controle de direitos de acesso, terá mais facilidade em encontrar pessoal para projetos. Também simplificará potenciais migrações de e para uma plataforma.

  3. Simplifique a implementação de novos casos de uso

    Para tirar o máximo proveito dos dados no data lake, os usuários devem ser capazes de implantar facilmente seus casos de uso na plataforma. Isso começa com processos enxutos em torno do acesso à plataforma e do gerenciamento de dados. Por exemplo, o acesso de autoatendimento à plataforma ajuda a evitar que uma equipe central se torne um gargalo. Ambientes compartilhados e esquemas predefinidos para a implantação de novos ambientes garantem que a plataforma esteja rapidamente disponível para qualquer usuário empresarial.

  4. Garantir a consistência e usabilidade dos dados

    Duas atividades importantes numa plataforma de dados são a publicação e o consumo de dados. Do ponto de vista da publicação, os dados devem ser oferecidos como um produto. Os editores precisam seguir um ciclo de vida definido com os consumidores em mente, e os dados precisam ser claramente definidos com esquemas gerenciados, descrições e assim por diante.

    É igualmente importante fornecer dados semanticamente coerentes para que os consumidores possam compreender facilmente e combinar corretamente diferentes conjuntos de dados. Além disso, todos os dados devem ser facilmente detetáveis e acessíveis aos consumidores através de um catálogo central com metadados e linhagem de dados devidamente selecionados.

Próximo: Práticas recomendadas para interoperabilidade e usabilidade

Consulte Práticas recomendadas para interoperabilidade e usabilidade.