Implementar uma solução de análises de um data lakehouse com o Azure Databricks

Intermediário
Engenheiro de dados
Azure Databricks

Aprenda a aproveitar o poder do Apache Spark e clusters poderosos em execução na plataforma Azure Databricks para executar grandes cargas de trabalho de engenharia de dados na nuvem.

Pré-requisitos

Nenhum

Módulos neste roteiro de aprendizagem

O Azure Databricks é um serviço de nuvem que fornece uma plataforma escalonável para análise de dados usando o Apache Spark.

Saiba como executar a análise de dados usando o Azure Databricks. Explore vários métodos de ingestão de dados e como integrar dados de fontes como o Azure Data Lake e o Banco de Dados SQL do Azure. Este módulo orienta você a usar notebooks colaborativos para executar análise exploratória de dados (EDA), para que você possa visualizar, manipular e examinar dados para descobrir padrões, anomalias e correlações.

O Azure Databricks é baseado no Apache Spark e permite que engenheiros de dados e analistas executem trabalhos do Spark para transformar, analisar e visualizar dados em escala.

O Delta Lake é uma solução de gerenciamento de dados no Azure Databricks que fornece recursos, incluindo transações ACID, imposição de esquema e viagem no tempo, garantindo a consistência dos dados, a integridade e as funcionalidades de controle de versão.

A criação de pipelines de dados com Tabelas Dinâmicas Delta permite processamento de dados em tempo real, escalonável e confiável usando os recursos avançados do Delta Lake no Azure Databricks

Implantar cargas de trabalho com os Fluxos de Trabalho do Azure Databricks envolve orquestrar e automatizar pipelines complexos de processamento de dados, fluxos de trabalho de aprendizado de máquina e tarefas de análise de dados. Neste módulo, você vai aprender a implantar cargas de trabalho com os Fluxos de Trabalho do Databricks.