Data warehouse e análise

Armazenamento do Azure Data Lake
Azure Cosmos DB
Fábrica de dados do Azure
Banco de Dados SQL do Azure
Armazenamento de Tabelas do Azure

Este cenário de exemplo demonstra um pipeline de dados que integra a grandes quantidades de dados de várias fontes em uma plataforma de análise unificada no Azure. Este cenário específico se baseia em uma solução de vendas e marketing, mas os padrões de design são relevantes para muitos setores que exigem análise avançada de grandes conjuntos de dados, como serviços de saúde, varejo e comércio eletrônico.

Arquitetura

Arquitetura para um cenário de análise e data warehousing no Azure

Baixe um Arquivo Visio dessa arquitetura.

Fluxo de dados

Os dados fluem pela solução da seguinte maneira:

  1. Para cada fonte de dados, todas as atualizações são exportadas periodicamente para uma área de preparo no Azure Data Lake Storage.
  2. O Azure Data Factory carrega incrementalmente os dados do Azure Data Lake Storage em tabelas de preparo no Azure Synapse Analytics. Os dados são limpos e transformados durante esse processo. O PolyBase pode paralelizar o processo para grandes conjuntos de dados.
  3. Depois de carregar um novo lote de dados no warehouse, um modelo de tabela do Azure Analysis Services criado anteriormente é atualizado. Este modelo semântico simplifica a análise de dados de negócios e relações.
  4. Os analistas de negócios usam o Microsoft Power BI para analisar os dados escalonados por meio do modelo semântico do Analysis Services.

Componentes

A empresa tem fontes de dados em várias plataformas diferentes:

  • SQL Server local
  • Oracle local
  • Banco de Dados SQL do Azure
  • Armazenamento de tabelas do Azure
  • Azure Cosmos DB

Os dados são carregados destas fontes de dados diferentes usando diversos componentes do Azure:

  • O Azure Data Lake Storage é usado para preparar os dados de origem antes de serem carregados no Azure Synapse.
  • O Data Factory coordena a transformação de dados preparados em uma estrutura comum no Azure Synapse. O Data Factory usa o PolyBase ao carregar dados no Azure Synapse para maximizar a taxa de transferência.
  • O Azure Synapse é um sistema distribuído para armazenamento e análise de grandes conjuntos de dados. O uso que ele faz do MPP (processamento altamente paralelo) o torna adequado para a execução de análises de alto desempenho. O Azure Synapse pode usar o PolyBase para carregar rapidamente os dados do Azure Data Lake Storage.
  • O Analysis Services fornece um modelo semântico para seus dados. Ele também pode aumentar o desempenho do sistema ao analisar seus dados.
  • Power BI é um conjunto de ferramentas de análise de negócios para analisar dados e compartilhar informações. O Power BI pode consultar um modelo semântico armazenado no Analysis Services ou pode consultar diretamente o Azure Synapse.
  • A ID do Microsoft Entra autentica os usuários que se conectam ao servidor do Analysis Services pelo Power BI. O Data Factory também pode usar a ID do Microsoft Entra para autenticar no Azure Synapse por uma entidade de serviço ou Identidade gerenciada para recursos do Azure.

Alternativas

Detalhes do cenário

Este exemplo demonstra uma empresa de vendas e marketing que cria programas de incentivo. Esses programas recompensam os clientes, fornecedores, vendedores e funcionários. Os dados são fundamentais para esses programas e a empresa deseja melhorar as informações obtidas por meio da análise de dados usando o Azure.

A empresa precisa de uma abordagem moderna dos dados de análise para que as decisões sejam tomadas usando os dados certos no momento certo. As metas da empresa incluem:

  • Combinar tipos diferentes de fontes de dados em uma plataforma em escala de nuvem.
  • Transformar os dados de origem em uma estrutura e taxonomia comum, para deixar os dados consistentes e facilitar a comparação.
  • Carregar os dados usando uma abordagem altamente paralelizada que pode dar suporte a milhares de programas de incentivo, sem os altos custos de implantação e manutenção de infraestrutura local.
  • Reduzir significativamente o tempo necessário para reunir e transformar dados, para que você possa se concentrar na análise de dados.

Possíveis casos de uso

Essa abordagem também pode ser usada para:

  • Estabeleça um data warehouse para ser a única fonte de verdade para seus dados.
  • Integre as fontes de dados relacionais com outros conjuntos de dados não estruturados.
  • Use a modelagem semântica e as ferramentas de visualização poderosas para uma análise de dados mais simples.

Considerações

Estas considerações implementam os pilares do Azure Well-Architected Framework, que é um conjunto de princípios de orientação que podem ser usados para aprimorar a qualidade de uma carga de trabalho. Para obter mais informações, confira Microsoft Azure Well-Architected Framework.

As tecnologias nesta arquitetura foram escolhidas porque atendem aos requisitos de escalabilidade e disponibilidade da empresa, e ao mesmo tempo, ajudam a controlar os custos.

Otimização de custo

A otimização de custos é a análise de maneiras de reduzir as despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, confira Visão geral do pilar de otimização de custo.

Analise um exemplo de preço para um cenário de armazenamento de dados na Calculadora de Preços do Azure. Ajuste os valores para ver como seus requisitos afetam os custos.

  • O Azure Synapse permite que você dimensione seus níveis de computação e armazenamento independentemente. Os recursos de computação são cobrados por hora e você pode dimensioná-los ou interrompê-los sob demanda. Os recursos de armazenamento são cobrados por terabyte, assim seus custos aumentam à medida que você insere mais dados.
  • Data Factory os custos são baseados no número de operações de leitura/gravação, monitoramento e atividades de orquestração realizadas em uma carga de trabalho. Os custos de Data Factory aumentam com cada fluxo de dados adicional e a quantidade de dados processados por cada um.
  • O Analysis Services está disponível nas camadas Developer, Basic e Standard. As instâncias são cobradas com base em QPUs (unidades de processamento de consulta) e na memória disponível. Para manter os custos reduzidos, minimize o número de consultas executadas, a quantidade de dados processada e a frequência de execução.
  • O Power BI tem diferentes opções de produto para diversos requisitos. O Power BI Embedded fornece uma opção baseada no Azure para incorporar a funcionalidade do Power BI em seus aplicativos. Uma instância do Power BI Embedded está incluída no exemplo de preço acima.

Colaboradores

Esse artigo é mantido pela Microsoft. Ele foi escrito originalmente pelos colaboradores a seguir.

Autor principal:

  • Alex Buck | Desenvolvedor sênior de conteúdo

Para ver perfis não públicos do LinkedIn, entre no LinkedIn.

Próximas etapas