Apache Spark en Azure Databricks

En este artículo se describe cómo se relaciona Apache Spark con Azure Databricks y la plataforma Data Intelligence de Databricks.

Apache Spark se encuentra en el centro de la plataforma de Azure Databricks y es la tecnología que potencia los clústeres de proceso y los almacenes de SQL. Azure Databricks es una plataforma optimizada para Apache Spark, que proporciona una plataforma eficaz y sencilla para ejecutar cargas de trabajo de Apache Spark.

¿Qué relación tiene Apache Spark con Azure Databricks?

La empresa Databricks fue fundada por los creadores originales de Apache Spark. Como proyecto de software de código abierto, Apache Spark tiene confirmadores de muchas de las mejores compañías, como Databricks.

Databricks continúa desarrollando y lanzando características en Apache Spark. Databricks Runtime incluye optimizaciones adicionales y características de su propiedad que se basan en y amplían Apache Spark, incluida Photon, una versión optimizada de Apache Spark reescrita en C++.

¿Cómo funciona Apache Spark en Azure Databricks?

Cuando implementa un clúster de proceso o almacén de SQL en Azure Databricks, Apache Spark se configura e implementa en máquinas virtuales. No necesita configurar o inicializar un contexto de Spark o una sesión de Spark, ya que Azure Databricks los administra por usted.

¿Puedo usar Azure Databricks sin usar Apache Spark?

Azure Databricks admite una variedad de cargas de trabajo e incluye bibliotecas de código abierto en Databricks Runtime. Databricks SQL usa Apache Spark en segundo plano, pero los usuarios finales usan la sintaxis SQL estándar para crear y consultar objetos de base de datos.

Databricks Runtime para Machine Learning está optimizado para cargas de trabajo de ML y muchos científicos de datos usan bibliotecas de código abierto principales como TensorFlow y SciKit Learn mientras trabajan en Azure Databricks. Puede usar trabajos para programar cargas de trabajo arbitrarias en los recursos de proceso implementados y administrados por Azure Databricks.

¿Por qué usar Apache Spark en Azure Databricks?

La plataforma Databricks proporciona un entorno seguro y colaborativo para desarrollar e implementar soluciones empresariales que se escalan con su negocio. Los empleados de Databricks incluyen muchos de los mantenedores y usuarios de Apache Spark más conocidos del mundo. La empresa desarrolla y publica continuamente nuevas optimizaciones para garantizar que los usuarios puedan acceder al entorno más rápido para ejecutar Apache Spark.

¿Cómo puedo obtener más información sobre el uso de Apache Spark en Azure Databricks?

Para empezar a trabajar con Apache Spark en Azure Databricks, ¡comencemos ahora! El tutorial de DataFrames de Apache Spark le guía a través de la carga y transformación de datos en Python, R o Scala. Consulte Tutorial: Carga y transformación de datos mediante DataFrames de Apache Spark.

Encontrará información adicional sobre la compatibilidad con lenguajes Python, R y Scala en Spark en las secciones PySpark en Azure Databricks, Introducción a SparkR y Azure Databricks para desarrolladores de Scala, así como en Referencia para las API de Apache Spark.