Compreender as etapas do processamento de big data

Concluído

Os data lakes têm um papel fundamental em uma ampla gama de arquiteturas de big data. Estas arquiteturas podem envolver a criação de:

  • Um armazém de dados empresarial.
  • Análises avançadas relativamente a macrodados.
  • Uma solução de análise em tempo real.

Existem quatro fases de processamento de soluções de macrodados que são comuns a todas as arquiteturas:

  • Ingerir - A fase de ingestão identifica a tecnologia e os processos que são utilizados para adquirir os dados de origem. Esses dados podem vir de arquivos, logs e outros tipos de dados não estruturados que devem ser colocados no data lake. A tecnologia utilizada irá variar consoante a frequência com que os dados são transferidos. Por exemplo, para movimentação em lote de dados, os pipelines no Azure Synapse Analytics ou no Azure Data Factory podem ser a tecnologia mais apropriada a ser usada. Para ingestão de dados em tempo real, o Apache Kafka para HDInsight ou Stream Analytics pode ser uma escolha apropriada.
  • Armazenamento – a fase de armazenamento identifica onde devem ser colocados os dados ingeridos. O Azure Data Lake Storage Gen2 fornece uma solução de armazenamento segura e escalável que é compatível com tecnologias de processamento de big data comumente usadas.
  • Preparação e treinamento - A fase de preparação e treinamento identifica as tecnologias que são usadas para realizar a preparação de dados e modelar o treinamento e a pontuação para soluções de aprendizado de máquina. As tecnologias comuns usadas nesta fase são o Azure Synapse Analytics, o Azure Databricks, o Azure HDInsight e o Azure Machine Learning.
  • Modelo e apresentação – por último, a fase de modelo e apresentação envolve as tecnologias que irão apresentar os dados aos utilizadores. Essas tecnologias podem incluir ferramentas de visualização, como o Microsoft Power BI, ou armazenamentos de dados analíticos, como o Azure Synapse Analytics. Muitas vezes, uma combinação de várias tecnologias será usada dependendo dos requisitos de negócios.