Como usar o Data Wrangler em DataFrames do Spark

O Data Wrangler, uma ferramenta baseada em notebooks para análise de dados exploratória, passou a oferecer suporte tanto para DataFrames do Spark quanto para DataFrames do Pandas. Ele gera código em PySpark e também em Python. Para obter uma visão geral do Data Wrangler, que aborda como explorar e realizar a transformação de DataFrames do Pandas, acesse o tutorial principal. Este tutorial mostra como usar o Data Wrangler para explorar e realizar transformação de DataFrames do Spark.

Pré-requisitos

Limitações

  • No momento, há suporte para operações de código personalizadas apenas para DataFrames do pandas.
  • A exibição do Data Wrangler funciona melhor em monitores de grandes dimensões, embora seja possível minimizar ou ocultar diferentes partes da interface para se ajustar a telas menores.

Como inicializar o Data Wrangler com um DataFrame do Spark

Os usuários podem abrir os DataFrames do Spark no Data Wrangler diretamente em um notebook do Microsoft Fabric, navegando até o mesmo prompt suspenso em que os DataFrames do pandas são exibidos. Uma lista de DataFrames do Spark ativos aparece no menu suspenso abaixo da lista de variáveis do Pandas ativas.

Este snippet de código cria um DataFrame do Spark com os mesmos dados de amostra utilizados no tutorial do Data Wrangler para o Pandas:

import pandas as pd

# Read a CSV into a Spark DataFrame
sdf = spark.createDataFrame(pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv"))
display(sdf)

Na guia “Início” da faixa de opções do notebook, use o menu de solicitação suspenso do Data Wrangler para navegar pelos DataFrames ativos disponíveis para edição. Selecione aquele que você deseja abrir no Data Wrangler.

Dica

O Data Wrangler não pode ser aberto enquanto o kernel do notebook estiver ocupado. Uma célula em execução deve concluir a execução antes que o Data Wrangler possa iniciar, conforme mostrado nesta captura de tela:

Captura de tela mostrando um bloco de anotações do Fabric com o prompt de lista suspensa do Data Wrangler.

Como escolher exemplos personalizados

O Data Wrangler converte automaticamente os DataFrames do Spark em exemplos do pandas por motivos de desempenho. No entanto, todo o código gerado pela ferramenta é, em última análise, convertido para PySpark quando exportado de volta para o notebook. Assim como com qualquer DataFrame do Pandas, é possível personalizar a amostra padrão. Para abrir uma amostra personalizada de qualquer DataFrame ativo com o Data Wrangler, selecione “Escolher amostra personalizada” no menu suspenso, como mostrado nesta captura de tela:

Captura de tela mostrando o menu de solicitação suspenso do Data Wrangler com a opção de amostra personalizada em destaque.

Isso abrirá uma janela pop-up com opções para especificar o tamanho da amostra desejada (número de linhas) e o método de amostragem (primeiros registros, últimos registros ou um conjunto aleatório), como mostrado nesta captura de tela:

Captura de tela mostrando a solicitação de amostra personalizada do Data Wrangler.

Exibindo estatísticas de resumo

Ao carregar o Data Wrangler, é exibido uma barra de notificação informativa acima da grade de pré-visualização. Esta barra de notificação explica que os DataFrames do Spark são temporariamente convertidos em amostras do Pandas, mas todo o código gerado é, em última análise, convertido para PySpark. Fora isso, usar o Data Wrangler em DataFrames do Spark não é diferente de usá-lo em DataFrames do Pandas. Uma visão geral descritiva no painel “Resumo” exibe informações sobre as dimensões da amostra, valores ausentes e muito mais. A seleção de uma coluna na grade do Data Wrangler faz com que o painel “Resumo” se atualize e exiba estatísticas descritivas sobre a coluna em específico. Insights rápidos sobre cada coluna também estão disponíveis em seu cabeçalho.

Dica

As estatísticas e os elementos visuais específicos de cada coluna (tanto no painel “Resumo” quanto nos cabeçalhos das colunas) dependem dos tipos de dados da coluna. Por exemplo, um histograma com compartimento de uma coluna numérica aparecerá no cabeçalho da coluna somente se a coluna estiver convertida como um tipo numérico, conforme mostrado nesta captura de tela:

Captura de tela mostrando a grade de exibição e o painel Resumo do Data Wrangler.

Operações de limpeza de dados de navegação

Uma lista pesquisável de etapas de limpeza de dados pode ser encontrada no painel “Operações”. Usando o painel “Operações”, a seleção de uma etapa de limpeza de dados solicita que você forneça uma ou mais colunas de destino, juntamente com os parâmetros necessários para concluir a etapa. Por exemplo, a solicitação para escalar numericamente uma coluna requer um novo intervalo de valores, conforme mostrado nesta captura de tela:

Captura de tela mostrando o painel Operações do Data Wrangler.

Dica

É possível aplicar uma seleção reduzida de operações usando o menu de cada cabeçalho de coluna, como mostrado nesta captura de tela:

Captura de tela mostrando uma operação do Data Wrangler que pode ser aplicada usando o menu do cabeçalho da coluna.

Visualizar e aplicar operações

A grade de exibição do Data Wrangler realiza uma pré-visualização automática dos resultados de uma operação selecionada, e o código correspondente aparece automaticamente no painel abaixo da grade. Para confirmar o código visualizado, selecione "Aplicar" em ambos os lugares. Para excluir o código gerado na pré-visualização e tentar realizar uma nova operação, selecione “Descartar”, como mostrado nesta captura de tela:

Captura de tela mostrando uma operação do Data Wrangler em andamento.

Depois que uma operação é aplicada, a grade de exibição e as estatísticas resumidas do Data Wrangler são atualizadas para refletir os resultados. O código aparece na lista em execução de operações confirmadas, localizada no painel “Etapas de limpeza”, como mostrado nesta captura de tela:

Captura de tela mostrando uma operação do Data Wrangler aplicada.

Dica

É possível desfazer a última etapa aplicada a qualquer momento.. No painel “Etapas de limpeza”, um ícone de lixeira aparecerá se você passar o mouse sobre a última etapa aplicada, como mostrado nesta captura de tela:

Captura de tela mostrando uma operação do Data Wrangler que pode ser desfeita.

Esta tabela faz um resumo das operações com suporte por parte do Data Wrangler atualmente:

Operação Descrição
Sort Classificar uma coluna em ordem crescente ou decrescente
Filter Filtrar linhas com base em uma ou mais condições
Codificação One-Hot Criar novas colunas para cada valor exclusivo em uma coluna existente, indicando a presença ou ausência desses valores por linha
Codificação one-hot com delimitador Dividir e codificar dados categóricos únicos usando um delimitador
Alterar tipo de coluna Alterar o tipo de dados de uma coluna
Soltar coluna Exclua uma ou mais colunas
Selecionar coluna Escolher uma ou mais colunas para manter e excluir o restante
Renomear coluna Renomear uma coluna
Descartar valores ausentes Remover linhas com valores ausentes
Soltar linhas duplicadas Remover todas as linhas que têm valores duplicados em uma ou mais colunas
Preencher valores ausentes Substituir células por valores ausentes por um novo valor
Localizar e substituir Substituir células por um padrão de correspondência exato
Agrupar por coluna e agregação Agrupar por valores de coluna e resultados agregados
Remover espaço em branco Remover espaço em branco do início e do fim do texto
Dividir o texto Dividir uma coluna em várias colunas com base em um delimitador definido pelo usuário
Converter texto em minúsculas Converter texto em minúsculas
Converter texto em maiúsculas Converter texto em MAIÚSCULAS
Valores mín./máx. da escala Dimensionar uma coluna numérica entre um valor mínimo e máximo
Preenchimento relâmpago Criar automaticamente uma nova coluna com base em exemplos derivados de uma coluna existente

Modifique sua exibição

A qualquer momento, é possível personalizar a interface ao usar a guia “Exibições” na barra de ferramentas localizada acima da grade de exibição do Data Wrangler. Isso pode ocultar ou exibir diferentes painéis com base em suas preferências e no tamanho da tela, como mostrado nesta captura de tela:

Captura de tela mostrando o menu do Data Wrangler para personalizar o modo de visualização da exibição.

Salvar e exportar código

A barra de ferramentas acima da grade de exibição do Data Wrangler fornece opções para salvar o código gerado. É possível copiar o código para a área de transferência ou exportá-lo para o notebook como uma função. Para DataFrames do Spark, todo o código gerado no exemplo do pandas é traduzido para o PySpark antes de voltar ao notebook. Antes de o Data Wrangler fechar, a ferramenta exibe uma pré-visualização do código convertido em PySpark e também oferece a opção de exportar o código intermediário em Pandas.

Dica

O Data Wrangler gera um código que é aplicado somente quando você realiza a execução manual da nova célula, e não substitui o DataFrame original, como mostrado nesta captura de tela:

Captura de tela mostrando as opções para exportar código no Data Wrangler.

O código é convertido para PySpark, como mostrado nesta captura de tela:

Captura de tela mostrando a pré-visualização do PySpark na solicitação de exportação de código no Data Wrangler.

Em seguida, você pode realizar a execução do código exportado, conforme mostrado nesta captura de tela:

Captura de tela mostrando o código gerado pelo Data Wrangler no notebook.