O escopo da plataforma lakehouse

Uma estrutura moderna de dados e plataforma de IA

Para discutir o escopo da Plataforma de Inteligência de Dados do Databricks, é útil primeiro definir uma estrutura básica para os dados modernos e a plataforma de IA:

Estrutura de análise de dados de nuvem

Visão geral do escopo do lakehouse

A Plataforma de Inteligência de Dados do Databricks abrange a estrutura completa da plataforma de dados moderna. Ele é baseado na arquitetura do lakehouse e alimentado por um mecanismo de inteligência de dados que entende as qualidades exclusivas de seus dados. É uma base aberta e unificada para cargas de trabalho de ETL, ML/IA e DWH/BI e tem o Catálogo do Unity como solução central de governança de dados e IA.

Personas da estrutura da plataforma

A estrutura abrange os membros da equipe de dados primários (personas) que trabalham com os aplicativos na estrutura:

  • Engenheiros de dados fornecem a cientistas de dados e analistas de negócios dados precisos e reproduzíveis para a tomada de decisões oportuna e insights em tempo real. Eles implementam processos ETL altamente consistentes e confiáveis para aumentar a confiança e a confiança do usuário nos dados. Eles garantem que os dados sejam bem integrados aos vários pilares da empresa e normalmente seguem as práticas recomendadas de engenharia de software.
  • Cientistas de dados mesclar experiência analítica e compreensão de negócios para transformar dados em insights estratégicos e modelos preditivos. Eles são hábeis em traduzir desafios de negócios em soluções controladas por dados, seja por meio de insights analíticos retrospectivas ou modelagem preditiva prospectiva. Aproveitando as técnicas de modelagem de dados e aprendizado de máquina, eles projetam, desenvolvem e implantam modelos que revelam padrões, tendências e previsões de dados. Eles atuam como uma ponte, convertendo narrativas de dados complexas em histórias compreensíveis, garantindo que os stakeholders empresariais não só entendam, mas também possam agir sobre as recomendações orientadas por dados, por sua vez, impulsionando uma abordagem centrada em dados para resolver problemas dentro de uma organização.
  • engenheiros de ML (engenheiros de machine learning) lideram a aplicação prática da ciência de dados em produtos e soluções criando, implantando e mantendo modelos de machine learning. Seu foco principal gira em direção ao aspecto de engenharia do desenvolvimento e implantação de modelos. Os engenheiros de ML garantem a robustez, a confiabilidade e a escalabilidade dos sistemas de machine learning em ambientes dinâmicos, abordando os desafios relacionados à qualidade dos dados, à infraestrutura e ao desempenho. Ao integrar modelos de IA e ML em processos de negócios operacionais e produtos voltados para o usuário, eles facilitam a utilização da ciência de dados na resolução de desafios de negócios, garantindo que os modelos não fiquem apenas em pesquisa, mas impulsionem o valor de negócios tangível.
  • Analistas de negócios capacitam stakeholders e equipes de negócios com dados acionáveis. Eles geralmente interpretam dados e criam relatórios ou outra documentação para liderança usando ferramentas de BI padrão. Normalmente, eles são o ponto de contato para colegas de negócios e operações não técnicos para perguntas de análise rápida.
  • Os parceiros de negócios são partes interessadas importantes em um mundo de negócios cada vez mais interligado. Eles são definidos como uma empresa ou pessoas com as quais uma empresa mantém uma relação formal para atingir um objetivo comum e podem incluir vendedores, fornecedores, distribuidores e outros parceiros terceirizados. O compartilhamento de dados é um aspecto importante das parcerias comerciais, pois permite a transferência e a troca de dados para aprimorar a colaboração e a tomada de decisões controladas por dados.

Domínios da estrutura da plataforma

A plataforma consiste em vários domínios:

  • Armazenamento: na nuvem, os dados são armazenados principalmente em armazenamentos de objetos escalonáveis, eficientes e resilientes em provedores de nuvem.

  • Governança: os recursos relacionados à governança de dados, como controle de acesso, auditoria, gerenciamento de metadados, rastreamento de linhagem e monitoramento de todos os ativos de dados e IA.

  • Mecanismo de IA: o mecanismo de IA fornece recursos de IA generativa para toda a plataforma.

  • Ingerir e transformar as funcionalidades para cargas de trabalho de ETL.

  • Análise avançada, ML e IA: todos os recursos de machine learning, IA, IA generativa e análise de streaming.

  • Data warehouse: o domínio que dá suporte a casos de uso de DWH e BI.

  • Orquestração: gerenciamento central de fluxos de trabalho de pipelines de processamento de dados, machine learning e análise.

  • Ferramentas ETL &DS: as ferramentas de front-end que engenheiros de dados, cientistas de dados e engenheiros de ML usam principalmente para o trabalho.

  • Ferramentas de BI: as ferramentas de front-end que os analistas de BI usam principalmente para o trabalho.

  • Colaboração: funcionalidades para compartilhamento de dados entre duas ou mais partes.

O escopo da Plataforma Databricks

A Plataforma de Inteligência de Dados do Databricks e seus componentes podem ser mapeados para a estrutura da seguinte maneira:

Escopo do lakehouse

Download: Escopo dos componentes lakehouse – Databricks

Cargas de trabalho de dados no Azure Databricks

Mais importante, a Plataforma de Inteligência de Dados do Databricks abrange todas as cargas de trabalho relevantes para o domínio de dados em uma plataforma, com Apache Spark/Photon como o mecanismo:

Estrutura de tópicos das áreas de recurso do Azure Databricks

Este é um mapeamento dos recursos da plataforma Databricks Data Intelligence para as outras camadas da estrutura, de baixo para cima:

  • Armazenamento em nuvem

    Todos os dados do lakehouse são armazenados no armazenamento de objetos do provedor de nuvem. O Databricks dá suporte a três provedores de nuvem: AWS, Azure e GCP. Arquivos em diversos formatos estruturados e semiestruturados (como Parquet, CSV, JSON e Avro), bem como em formatos não estruturados (como imagens e documentos), são ingeridos e transformados usando processos em lote ou de streaming.

    Delta Lake é o formato de dados recomendado para o lakehouse (transações de arquivo, confiabilidade, consistência, atualizações e assim por diante) e está completamente aberto para evitar o bloqueio. E o Formato Universal Delta (UniForm) permite ler tabelas Delta com clientes leitores de Iceberg.

    Nenhum formato de dados proprietário é usado na Plataforma de Inteligência de Dados do Databricks.

  • Governança de dados

    Além da camada de armazenamento, o Unity Catalog oferece uma ampla variedade de recursos de governança de dados, incluindo gerenciamento de metadados no metastore, controle de acesso, auditoria, descoberta de dados, linhagem de dados.

    O monitoramento do Lakehouse fornece métricas de qualidade prontas para dados e ativos de IA e painéis gerados automaticamente para visualizar essas métricas.

    Fontes SQL externas podem ser integradas ao lakehouse e ao Catálogo do Unity por meio da federação lakehouse.

  • Mecanismo de IA

    A Plataforma de Inteligência de Dados é criada com base na arquitetura do lakehouse e aprimorada pelo mecanismo de inteligência de dados DatabricksIQ. O DatabricksIQ combina IA generativa com os benefícios de unificação da arquitetura lakehouse para entender a semântica exclusiva de seus dados. A Pesquisa Inteligente e o Assistente do Databricks são exemplos de serviços de IA que simplificam o trabalho com a plataforma para cada usuário.

  • Orquestração

    Trabalhos do Databricks permitem executar cargas de trabalho diversas para os dados completos e o ciclo de vida de IA em qualquer nuvem. Eles permitem orquestrar trabalhos, bem como Tabelas Dinâmicas Delta para SQL, Spark, notebooks, DBT, modelos de ML e muito mais.

  • ferramentas ETL & DS

    Na camada de consumo, engenheiros de dados e engenheiros de ML normalmente trabalham com a plataforma usando IDEs. Os cientistas de dados geralmente preferem notebooks e usam os runtimes de ML &AI e o MLflow do sistema de fluxo de trabalho de aprendizado de máquina para acompanhar experimentos e gerenciar o ciclo de vida do modelo.

  • Ferramentas de BI

    Os analistas de negócios normalmente usam sua ferramenta de BI preferencial para acessar o data warehouse do Databricks. O SQL do Databricks pode ser consultado por diferentes ferramentas de Análise e BI, consulte BI e visualização

    Além disso, a plataforma oferece ferramentas de consulta e análise prontas para uso:

    • Painéis para arrastar e soltar exibições de dados e compartilhar insights.
    • Editor de SQL para analistas do SQL analisarem dados.
  • Colaboração

    O Compartilhamento Delta é um protocolo em aberto desenvolvido pela Databricks para proteger o compartilhamento de dados com outras organizações, independente das plataformas de computação usadas por elas.

    O Databricks Marketplace é um fórum aberto para a troca de produtos de dados. Ele aproveita o compartilhamento Delta para dar aos provedores de dados as ferramentas para compartilhar produtos de dados com segurança e consumidores de dados o poder de explorar e expandir seu acesso aos dados e serviços de dados de que precisam.