API do Pandas no Spark

Artigo
08/16/2024

Observação

Esse recurso está disponível em clusters que executam o Databricks Runtime 10.0 (EoS) e superior. Para clusters que executam o Databricks Runtime 9.1 LTS e inferiores, use o Koalas.

Geralmente usado por cientistas de dados, o pandas é um pacote do Python que fornece estruturas de dados fáceis de usar e ferramentas de análise de dados para a linguagem de programação do Python. No entanto, o Pandas não escala horizontalmente para Big Data. A API do Pandas no Spark preenche esse espaço fornecendo APIs equivalentes ao Pandas que funcionam no Apache Spark. A API do Pandas no Spark é útil não apenas para usuários do pandas, mas também para usuários do PySpark, pois ela oferece suporte a muitas tarefas que são difíceis de realizar com o PySpark, por exemplo, a plotagem de dados diretamente de um Dataframe PySpark.

Requisitos

A API do Pandas no Spark está disponível a partir do Apache Spark 3.2 (que é incluído a partir do Databricks Runtime 10.0 (EoS)) usando a seguinte instrução import:

import pyspark.pandas as ps

Compartilhar via

API do Pandas no Spark

Requisitos

Notebook

API do Pandas para Pandas no Notebook do Spark

Recursos

Comentários

Recursos adicionais