Apache Spark på Azure Databricks

Den här artikeln beskriver hur Apache Spark är relaterat till Azure Databricks och Databricks Data Intelligence Platform.

Apache Spark är kärnan i Azure Databricks-plattformen och är tekniken som driver beräkningskluster och SQL-lager. Azure Databricks är en optimerad plattform för Apache Spark, vilket ger en effektiv och enkel plattform för att köra Apache Spark-arbetsbelastningar.

Vad är relationen mellan Apache Spark och Azure Databricks?

Databricks-företaget grundades av de ursprungliga skaparna av Apache Spark. Som ett programvaruprojekt med öppen källkod har Apache Spark incheckningar från många toppföretag, inklusive Databricks.

Databricks fortsätter att utveckla och släppa funktioner till Apache Spark. Databricks Runtime innehåller ytterligare optimeringar och egna funktioner som bygger på och utökar Apache Spark, inklusive Photon, en optimerad version av Apache Spark som skrivits om i C++.

Hur fungerar Apache Spark på Azure Databricks?

När du distribuerar ett beräkningskluster eller SQL-lager i Azure Databricks konfigureras och distribueras Apache Spark till virtuella datorer. Du behöver inte konfigurera eller initiera en Spark-kontext eller Spark-session eftersom dessa hanteras åt dig av Azure Databricks.

Kan jag använda Azure Databricks utan att använda Apache Spark?

Azure Databricks stöder en mängd olika arbetsbelastningar och innehåller bibliotek med öppen källkod i Databricks Runtime. Databricks SQL använder Apache Spark under huven, men slutanvändarna använder SQL-standardsyntax för att skapa och fråga databasobjekt.

Databricks Runtime för Mašinsko učenje är optimerat för ML-arbetsbelastningar, och många dataexperter använder primära bibliotek med öppen källkod som TensorFlow och SciKit Learn när de arbetar med Azure Databricks. Du kan använda jobb för att schemalägga godtyckliga arbetsbelastningar mot beräkningsresurser som distribueras och hanteras av Azure Databricks.

Varför ska du använda Apache Spark i Azure Databricks?

Databricks-plattformen ger en säker samarbetsmiljö för att utveckla och distribuera företagslösningar som skalas med din verksamhet. Databricks-anställda omfattar många av världens mest kunniga Apache Spark-underhållare och användare. Företaget utvecklar och släpper kontinuerligt nya optimeringar för att säkerställa att användarna kan komma åt den snabbaste miljön för att köra Apache Spark.

Hur kan jag lära mig mer om att använda Apache Spark i Azure Databricks?

Kom igång med Apache Spark i Azure Databricks genom att gå direkt in! Apache Spark DataFrames-självstudien går igenom inläsning och transformering av data i Python, R eller Scala. Se Självstudie: Läsa in och transformera data med Apache Spark DataFrames.

Ytterligare information om språkstöd för Python, R och Scala i Spark finns i avsnitten PySpark på Azure Databricks, SparkR-översikt och Azure Databricks för Scala-utvecklare samt i Referens för Apache Spark-API:er.