Spark 上的 Pandas API

注意

此功能適用於執行 Databricks Runtime 10.0 (EoS) 和更新版本的叢集。 針對執行 Databricks Runtime 9.1 LTS 和以下的叢集,請改用 Koalas

Pandas 是 Python 套件,常由資料科學家使用,可提供適用於 Python 程式設計語言之易於使用的資料結構和資料分析工具。 不過,Pandas 不會擴增至巨量資料。 Spark 上的 Pandas API 會透過提供可在 Apache Spark 上運作的 Pandas 對等 API 來填補此空白。 Spark 上的 Pandas API 不僅適用於 Pandas 使用者,還適用於 PySpark 使用者,因為 Spark 上的 Pandas API 支援許多使用 PySpark 難以執行的工作,例如直接從 PySpark DataFrame 繪製資料。

需求

Spark 上的 Pandas API 從 Apache Spark 3.2 開始提供 (從 Databricks Runtime 10.0 (EoS) 開始包括在內),方法是使用下列 import 陳述式:

import pyspark.pandas as ps

Notebook

下列筆記本示範如何在 Spark 上從 Pandas 移轉至 Pandas API。

Spark 上的 Pandas 至 Pandas API 筆記本

取得筆記本

資源