API do Pandas no Spark
Observação
Esse recurso está disponível em clusters que executam o Databricks Runtime 10.0 (EoS) e superior. Para clusters que executam o Databricks Runtime 9.1 LTS e inferiores, use o Koalas.
Geralmente usado por cientistas de dados, o pandas é um pacote do Python que fornece estruturas de dados fáceis de usar e ferramentas de análise de dados para a linguagem de programação do Python. No entanto, o Pandas não escala horizontalmente para Big Data. A API do Pandas no Spark preenche esse espaço fornecendo APIs equivalentes ao Pandas que funcionam no Apache Spark. A API do Pandas no Spark é útil não apenas para usuários do pandas, mas também para usuários do PySpark, pois ela oferece suporte a muitas tarefas que são difíceis de realizar com o PySpark, por exemplo, a plotagem de dados diretamente de um Dataframe PySpark.
Requisitos
A API do Pandas no Spark está disponível a partir do Apache Spark 3.2 (que é incluído a partir do Databricks Runtime 10.0 (EoS)) usando a seguinte instrução import
:
import pyspark.pandas as ps
Notebook
O notebook a seguir mostra como migrar do pandas para a API do Pandas no Spark.