O que é o Apache Spark™ no HDInsight no AKS? (Pré-visualização)

Nota

Vamos desativar o Azure HDInsight no AKS em 31 de janeiro de 2025. Antes de 31 de janeiro de 2025, você precisará migrar suas cargas de trabalho para o Microsoft Fabric ou um produto equivalente do Azure para evitar o encerramento abrupto de suas cargas de trabalho. Os clusters restantes na sua subscrição serão interrompidos e removidos do anfitrião.

Apenas o apoio básico estará disponível até à data da reforma.

Importante

Esta funcionalidade está atualmente em pré-visualização. Os Termos de Utilização Suplementares para Pré-visualizações do Microsoft Azure incluem mais termos legais que se aplicam a funcionalidades do Azure que estão em versão beta, em pré-visualização ou ainda não disponibilizadas para disponibilidade geral. Para obter informações sobre essa visualização específica, consulte Informações de visualização do Azure HDInsight no AKS. Para perguntas ou sugestões de recursos, envie uma solicitação no AskHDInsight com os detalhes e siga-nos para obter mais atualizações na Comunidade do Azure HDInsight.

O Apache Spark™ é uma estrutura de processamento paralelo que suporta processamento na memória para aumentar o desempenho de aplicativos analíticos de big data.

O Apache Spark™ fornece primitivos para computação em cluster na memória. Um trabalho do Spark pode carregar e colocar em cache dados na memória e consultá-los repetidamente. A computação na memória é mais rápida do que os aplicativos baseados em disco, como o Hadoop, que compartilha dados por meio do sistema de arquivos distribuído Hadoop (HDFS). O Apache Spark permite a integração com as linguagens de programação Scala e Python para permitir que você manipule conjuntos de dados distribuídos, como coleções locais. Não é necessário estruturar tudo como operações de mapa e redução.

Diagrama mostrando a visão geral do Spark no HDInsight no AKS.

Cluster Apache Spark com HDInsight no AKS

O Azure HDInsight é um serviço de análise gerido, de espectro completo e de código aberto para empresas.

O Apache Spark™ no Azure HDInsight no AKS é o serviço de faísca gerenciado no Microsoft Azure. Com o Apache Spark no Azure HDInsight no AKS, você pode armazenar e processar seus dados no Azure. Os clusters do Spark no HDInsight são compatíveis com o Azure Data Lake Storage Gen2 ou permitem que você aplique o processamento do Spark em seus armazenamentos de dados existentes.

A estrutura Apache Spark para HDInsight no AKS permite análise rápida de dados e computação em cluster usando processamento na memória. O Jupyter Notebook permite que você interaja com seus dados, combine código com texto de marcação e faça visualizações simples.

Apache Spark no AKS no HDInsight composto por vários componentes como pods.

Controladores de cluster

Os controladores de cluster são responsáveis pela instalação e gestão do respetivo serviço. Vários controladores são instalados e gerenciados em um cluster Spark.

Componentes de serviço do Apache Spark

Serviço Zookeeper: Um cluster Zookeeper de três nós, serve como coordenador distribuído ou armazenamento de Alta Disponibilidade para outros serviços.

Serviço Yarn: cluster Hadoop Yarn, trabalhos do Spark seriam agendados no cluster como aplicativos Yarn.

Interfaces de cliente: clusters Apache Spark no HDInsight no AKS, fornece várias interfaces de cliente. Livy Server, Jupyter Notebook, Spark History Server, fornece serviços Spark para HDInsight em usuários AKS.

Referência