Como acelerar a preparação de dados com o Data Wrangler no Microsoft Fabric

Artigo
08/14/2024

A ferramenta Data Wrangler é um recurso baseado em notebook que fornece uma interface imersiva para análise exploratória de dados. Ele combina uma exibição de dados em forma de grade com estatísticas de resumo dinâmicas, visualizações internas e uma biblioteca de operações comuns de limpeza de dados. Você pode aplicar cada operação com algumas etapas. Você pode atualizar a exibição de dados em tempo real e gerar código em pandas ou PySpark que você pode salvar de volta no notebook como uma função reutilizável. Este artigo se concentra na exploração e transformação de pandas DataFrames. Para obter mais informações sobre como usar o Data Wrangler no Spark DataFrames, visite este recurso.

Pré-requisitos

Obtenha uma assinatura do Microsoft Fabric. Ou inscreva-se para uma avaliação gratuita do Microsoft Fabric.
Entre no Microsoft Fabric.
Use o seletor de experiência no lado esquerdo da sua página inicial para alternar para a experiência Synapse Data Science.

Limitações

Atualmente, as operações de código personalizado são suportadas apenas para pandas DataFrames.
A tela do Data Wrangler funciona melhor em monitores grandes, embora você possa minimizar ou ocultar diferentes partes da interface, para acomodar telas menores.

Lançamento do Data Wrangler

Você pode iniciar o Data Wrangler diretamente de um notebook Microsoft Fabric para explorar e transformar qualquer pandas ou Spark DataFrame. Para obter mais informações sobre como usar o Data Wrangler com o Spark DataFrames, visite este artigo complementar. Este trecho de código mostra como ler dados de exemplo em um DataFrame pandas:

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

Na guia "Página inicial" da faixa de opções do bloco de anotações, use o prompt suspenso do Data Wrangler para procurar os DataFrames ativos disponíveis para edição. Selecione o que deseja abrir no Data Wrangler.

Gorjeta

O Data Wrangler não pode ser aberto enquanto o kernel do notebook estiver ocupado. Uma célula de execução deve terminar sua execução antes que o Data Wrangler possa ser iniciado, conforme mostrado nesta captura de tela:

Escolhendo amostras personalizadas

Para abrir uma amostra personalizada de qualquer DataFrame ativo com o Data Wrangler, selecione "Choose custom sample" na lista suspensa, conforme mostrado nesta captura de tela:

Isso inicia um pop-up com opções para especificar o tamanho da amostra desejada (número de linhas) e o método de amostragem (primeiros registros, últimos registros ou um conjunto aleatório). As primeiras 5.000 linhas do DataFrame servem como o tamanho de amostra padrão, conforme mostrado nesta captura de tela:

Visualizar estatísticas de resumo

Quando o Data Wrangler é carregado, ele exibe uma visão geral descritiva do DataFrame escolhido no painel "Resumo". Esta visão geral inclui informações sobre as dimensões do DataFrame, seus valores ausentes e muito mais. A seleção de qualquer coluna na grade do Data Wrangler solicita que o painel "Resumo" atualize e exiba estatísticas descritivas sobre essa coluna específica. Informações rápidas sobre cada coluna também estão disponíveis em seu cabeçalho.

Gorjeta

As estatísticas e visuais específicos da coluna (tanto no painel "Resumo" quanto nos cabeçalhos das colunas) dependem do tipo de dados da coluna. Por exemplo, um histograma vinculado de uma coluna numérica aparece no cabeçalho da coluna somente se a coluna for convertida como um tipo numérico, conforme mostrado nesta captura de tela:

Navegando pelas operações de limpeza de dados

Uma lista pesquisável de etapas de limpeza de dados pode ser encontrada no painel "Operações". No painel "Operações", a seleção de uma etapa de limpeza de dados solicita que você forneça uma coluna ou colunas de destino, juntamente com quaisquer parâmetros necessários para concluir a etapa. Por exemplo, o prompt para dimensionar numericamente uma coluna requer um novo intervalo de valores, conforme mostrado nesta captura de tela:

Gorjeta

Você pode aplicar uma seleção menor de operações no menu de cada cabeçalho de coluna, conforme mostrado nesta captura de tela:

Pré-visualização e aplicação de operações

A grade de exibição do Data Wrangler visualiza automaticamente os resultados de uma operação selecionada e o código correspondente aparece automaticamente no painel abaixo da grade. Para confirmar o código visualizado, selecione "Aplicar" em qualquer um dos locais. Para excluir o código visualizado e tentar uma nova operação, selecione "Descartar", conforme mostrado nesta captura de tela:

Depois que uma operação é aplicada, a grade de exibição do Data Wrangler e as estatísticas resumidas são atualizadas para refletir os resultados. O código aparece na lista em execução de operações confirmadas, localizada no painel "Etapas de limpeza", conforme mostrado nesta captura de tela:

Gorjeta

Você sempre pode desfazer a etapa aplicada mais recentemente. No painel "Etapas de limpeza", um ícone de lixeira aparecerá se você passar o cursor sobre a etapa aplicada mais recentemente, conforme mostrado nesta captura de tela:

Esta tabela resume as operações que o Data Wrangler suporta atualmente:

Operação	Descrição
Ordenação	Ordenar uma coluna por ordem crescente ou decrescente
Filtro	Filtrar linhas com base em uma ou mais condições
Codificação a quente	Crie novas colunas para cada valor exclusivo em uma coluna existente, indicando a presença ou ausência desses valores por linha
Codificação a quente com delimitador	Dividir e codificar dados categóricos usando um delimitador
Alterar o tipo de coluna	Alterar o tipo de dados de uma coluna
Soltar coluna	Excluir uma ou mais colunas
Selecionar coluna	Escolha uma ou mais colunas para manter e exclua o restante
Renomear coluna	Renomear uma coluna
Soltar valores ausentes	Remover linhas com valores em falta
Soltar linhas duplicadas	Soltar todas as linhas com valores duplicados em uma ou mais colunas
Preencher valores em falta	Substituir células com valores em falta por um novo valor
Localizar e substituir	Substituir células por um padrão de correspondência exato
Agrupar por coluna e agregar	Agrupar por coluna valores e agregar resultados
Espaço em branco da faixa	Remover espaços em branco do início e do fim do texto
Dividir texto	Dividir uma coluna em várias colunas com base em um delimitador definido pelo usuário
Converter texto em minúsculas	Converter texto em minúsculas
Converter texto em maiúsculas	Converter texto em maiúsculas
Valores mínimos/máximos da escala	Dimensionar uma coluna numérica entre um valor mínimo e máximo
Preenchimento relâmpago	Criar automaticamente uma nova coluna com base em exemplos derivados de uma coluna existente

Modificar o ecrã

A qualquer momento, você pode personalizar a interface com a guia "Visualizações" na barra de ferramentas localizada acima da grade de exibição do Data Wrangler. Isso pode ocultar ou mostrar painéis diferentes com base em suas preferências e tamanho da tela, conforme mostrado nesta captura de tela:

Guardar e exportar código

A barra de ferramentas acima da grade de exibição do Data Wrangler fornece opções para salvar o código gerado. Você pode copiar o código para a área de transferência ou exportá-lo para o bloco de anotações como uma função. A exportação do código fecha o Data Wrangler e adiciona a nova função a uma célula de código no bloco de anotações. Você também pode baixar o DataFrame limpo como um arquivo csv.

Gorjeta

O Data Wrangler gera código que é aplicado somente quando você executa manualmente a nova célula e não substitui o DataFrame original, conforme mostrado nesta captura de tela:

Em seguida, você pode executar esse código exportado, conforme mostrado nesta captura de tela:

Para experimentar o Data Wrangler no Spark DataFrames, visite este artigo complementar
Para uma demonstração live-action do Data Wrangler in Fabric, confira este vídeo de nossos amigos no Guy in a Cube
Para experimentar o Data Wrangler no Visual Studio Code, vá para Data Wrangler no VS Code
Perdemos um recurso que você precisa? Informe-nos! Sugira no fórum Fabric Ideas

Partilhar via

Como acelerar a preparação de dados com o Data Wrangler no Microsoft Fabric

Pré-requisitos

Limitações

Lançamento do Data Wrangler

Escolhendo amostras personalizadas

Visualizar estatísticas de resumo

Navegando pelas operações de limpeza de dados

Pré-visualização e aplicação de operações

Modificar o ecrã

Guardar e exportar código

Comentários

Recursos adicionais

Partilhar via

Como acelerar a preparação de dados com o Data Wrangler no Microsoft Fabric

Pré-requisitos

Limitações

Lançamento do Data Wrangler

Escolhendo amostras personalizadas

Visualizar estatísticas de resumo

Navegando pelas operações de limpeza de dados

Pré-visualização e aplicação de operações

Modificar o ecrã

Guardar e exportar código

Conteúdos relacionados

Comentários

Recursos adicionais