Apache Spark no Azure Databricks

Este artigo descreve como o Apache Spark está relacionado ao Azure Databricks e à Plataforma Data Intelligence do Databricks.

O Apache Spark está no centro da Plataforma Azure Databricks e é a tecnologia que alimenta clusters de computação e SQL warehouses. O Azure Databricks é uma plataforma otimizada para Apache Spark, fornecendo uma plataforma eficiente e simples para executar cargas de trabalho do Apache Spark.

Qual é a relação do Apache Spark com o Azure Databricks?

A empresa Databricks foi fundada pelos criadores originais do Apache Spark. Como um projeto de software de código aberto, o Apache Spark tem usuários de muitas empresas de ponta, incluindo o Databricks.

A Databricks continua desenvolvendo e lançando recursos para o Apache Spark. O Databricks Runtime inclui otimizações adicionais e recursos proprietários que se baseiam e estendem o Apache Spark, incluindo o Photon, uma versão otimizada do Apache Spark reescrita em C++.

Como o Apache Spark funciona no Azure Databricks?

Quando você implanta um cluster de computação ou SQL warehouse no Azure Databricks, o Apache Spark é configurado e implantado em máquinas virtuais. Você não precisar configurar ou a inicializar um contexto ou de uma sessão do Spark, pois eles são gerenciados para você pelo Azure Databricks.

Posso usar o Azure Databricks sem usar o Apache Spark?

O Azure Databricks dá suporte a uma variedade de cargas de trabalho e inclui bibliotecas de código aberto no Databricks Runtime. O Databricks SQL usa o Apache Spark nos bastidores, mas os usuários finais usam a sintaxe SQL padrão para criar e consultar objetos de banco de dados.

O Databricks Runtime para Machine Learning é otimizado para cargas de trabalho de ML, e muitos cientistas de dados usam bibliotecas de código aberto primárias, como TensorFlow e SciKit Learn, enquanto trabalham no Azure Databricks. Você pode usar trabalhos para agendar cargas de trabalho arbitrárias com base nos recursos de computação implantados e gerenciados pelo Azure Databricks.

Por que usar o Apache Spark no Azure Databricks?

A Plataforma Databricks fornece um ambiente seguro e colaborativo para desenvolver e implantar soluções corporativas que são dimensionadas com seus negócios. Os funcionários do Databricks contam com muitos dos mantenedores e usuários do Apache Spark mais experientes do mundo. A empresa desenvolve e lança continuamente novas otimizações para garantir que os usuários possam acessar o ambiente mais rápido para executar o Apache Spark.

Como posso saber mais sobre como usar o Apache Spark no Azure Databricks?

Para começar a usar o Apache Spark no Azure Databricks, mergulhe de cabeça! O tutorial do Apache Spark DataFrames explica como carregar e transformar dados em Python, R ou Scala. Veja Tutorial: Carregar e transformar dados usando Apache Spark DataFrames.

Informações adicionais sobre o suporte à linguagem Python, R e Scala no Spark são encontradas nas seções PySpark no Azure Databricks, visão geral do SparkR e Azure Databricks para desenvolvedores do Scala, bem como em Referência para APIs do Apache Spark.