Ускорение подготовки данных с помощью Data Wrangler в Microsoft Fabric

Статья
08/14/2024

Средство Data Wrangler — это ресурс на основе записных книжек, который предоставляет иммерсивный интерфейс для анализа аналитических данных. Он объединяет отображение данных, например сетки, с динамической сводной статистикой, встроенными визуализациями и библиотекой общих операций очистки данных. Каждую операцию можно применить с помощью нескольких шагов. Вы можете обновить отображение данных в режиме реального времени и создать код в pandas или PySpark, который можно сохранить обратно в записную книжку в качестве повторной функции. В этой статье рассматривается изучение и преобразование пандовых кадров данных. Дополнительные сведения об использовании Data Wrangler в Кадрах данных Spark см . в этом ресурсе.

Необходимые компоненты

Получение подписки Microsoft Fabric. Или зарегистрируйте бесплатную пробную версию Microsoft Fabric.
Войдите в Microsoft Fabric.
Используйте переключатель интерфейса в левой части домашней страницы, чтобы перейти на интерфейс Synapse Обработка и анализ данных.

Ограничения

Пользовательские операции кода в настоящее время поддерживаются только для pandas DataFrames.
Отображение Wrangler данных лучше всего работает на больших мониторах, хотя можно свести к минимуму или скрыть различные части интерфейса, чтобы разместить небольшие экраны.

Запуск Wrangler данных

Вы можете запустить Data Wrangler непосредственно из записной книжки Microsoft Fabric для изучения и преобразования любых pandas или Spark DataFrame. Дополнительные сведения об использовании Data Wrangler с Кадрами данных Spark см . в этой статье. В этом фрагменте кода показано, как считывать примеры данных в кадр данных pandas:

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

На вкладке "Главная" на ленте записной книжки используйте раскрывающийся список Data Wrangler, чтобы просмотреть активные кадры данных, доступные для редактирования. Выберите нужный объект в Data Wrangler.

Совет

Не удается открыть Wrangler, пока ядро записной книжки занято. Выполнение ячейки должно завершиться до запуска Wrangler данных, как показано на снимке экрана:

Выбор пользовательских примеров

Чтобы открыть пользовательский образец любого активного кадра данных с помощью Wrangler, выберите "Выбрать пользовательский пример" в раскрывающемся списке, как показано на снимке экрана:

Это запускает всплывающее окно с параметрами, чтобы указать размер требуемого образца (количество строк) и метод выборки (первые записи, последние записи или случайный набор). Первые 5000 строк кадра данных служат размером выборки по умолчанию, как показано на снимке экрана:

Просмотр сводной статистики

При загрузке Data Wrangler отображается описательный обзор выбранного кадра данных на панели "Сводка". В этом обзоре содержатся сведения о измерениях кадра данных, отсутствующих значениях и т. д. Выбор любого столбца в сетке Data Wrangler предложит панели "Сводка" обновить и отобразить описательную статистику о конкретном столбце. Краткие сведения о каждом столбце также доступны в заголовке.

Совет

Статистика и визуальные элементы для столбцов (как на панели "Сводка", так и в заголовках столбцов) зависят от типа данных столбца. Например, в заголовке столбца отображается бинированная гистограмма числового столбца, только если столбец приведение в виде числового типа, как показано на снимке экрана:

Просмотр операций очистки данных

Список действий по очистке данных можно найти на панели "Операции". На панели "Операции" выбор шага очистки данных запрашивает указать целевой столбец или столбцы, а также все необходимые параметры для выполнения шага. Например, запрос на числовое масштабирование столбца требует нового диапазона значений, как показано на снимке экрана:

Совет

Вы можете применить меньший выбор операций из меню каждого заголовка столбца, как показано на снимке экрана:

Предварительный просмотр и применение операций

Сетка отображения данных Wrangler автоматически просматривает результаты выбранной операции, а соответствующий код автоматически отображается на панели под сеткой. Чтобы зафиксировать предварительный просмотр кода, выберите "Применить" в любом месте. Чтобы удалить предварительный просмотр кода и попробовать новую операцию, нажмите кнопку "Отменить", как показано на снимке экрана:

После применения операции сетка отображения данных Wrangler и обновление сводной статистики для отражения результатов. Код отображается в запущенном списке зафиксированных операций, расположенных на панели "Очистка шагов", как показано на этом снимке экрана:

Совет

Вы всегда можете отменить последний примененный шаг. На панели "Очистка шагов" появится значок корзины, если наведите указатель мыши на последний примененный шаг, как показано на этом снимке экрана:

В этой таблице перечислены операции, поддерживаемые Wrangler data:

Операция	Description
Сортировать	Сортировка столбца по возрастанию или убыванию
Фильтр	Фильтрация строк на основе одного или нескольких условий
Одно горячее кодирование	Создание новых столбцов для каждого уникального значения в существующем столбце, указывающее на наличие или отсутствие этих значений на строку
Одно горячее кодирование с разделителем	Разделение и одно горячее кодирование категориальных данных с помощью разделителя
Изменение типа столбца	Изменение типа данных столбца
Удаление столбца	Удаление одного или нескольких столбцов
Выбор столбца	Выберите один или несколько столбцов, чтобы сохранить и удалить остальные
Переименование столбца	Переименование столбца
Удаление отсутствующих значений	Удаление строк с отсутствующими значениями
Удаление повторяющихся строк	Удаление всех строк с повторяющимися значениями в одном или нескольких столбцах
Заполнение отсутствующих значений	Замените ячейки отсутствующими значениями новым значением
Поиск и замена	Замените ячейки точным шаблоном сопоставления
Группировка по столбцам и статистическим выражениям	Группировать по значениям столбцов и агрегированным результатам
Пробелы в полосе	Удаление пробелов из начала и конца текста
Разделение текста	Разделение столбца на несколько столбцов на основе определяемого пользователем разделителя
Преобразование текста в строчные буквы	Преобразование текста в строчные буквы
Преобразование текста в верхний регистр	Преобразование текста в ВЕРХНИЙ РЕГИСТР
Минимальное или максимальное масштабирование значений	Масштабирование числового столбца между минимальным и максимальным значением
Заливка флэш-памяти	Автоматическое создание нового столбца на основе примеров, производных от существующего столбца

Изменение дисплея

В любое время вы можете настроить интерфейс с помощью вкладки "Представления" на панели инструментов, расположенной над сеткой отображения Data Wrangler. Это может скрыть или отобразить различные панели на основе ваших настроек и размера экрана, как показано на этом снимке экрана:

Сохранение и экспорт кода

Панель инструментов над сеткой отображения данных Wrangler предоставляет параметры для сохранения созданного кода. Вы можете скопировать код в буфер обмена или экспортировать его в записную книжку в виде функции. Экспорт кода закрывает Data Wrangler и добавляет новую функцию в ячейку кода в записной книжке. Вы также можете скачать очищенный кадр данных в виде CSV-файла.

Совет

Wrangler создает код, который применяется только при ручном запуске новой ячейки, и он не перезаписывает исходный кадр данных, как показано на этом снимке экрана:

Затем можно запустить экспортируемый код, как показано на снимке экрана:

Чтобы попробовать Data Wrangler в Кадрах данных Spark, ознакомьтесь со следующей статьей
Для демонстрации live-action data Wrangler в Fabric, ознакомьтесь с этим видео из наших друзей на Гай в кубе
Чтобы попробовать Data Wrangler в Visual Studio Code, перейдите к Data Wrangler в VS Code
Упустили ли у вас функцию? Поделитесь с нами. Предложить его на форуме "Идеи структуры"

Поделиться через

Ускорение подготовки данных с помощью Data Wrangler в Microsoft Fabric

Необходимые компоненты

Ограничения

Запуск Wrangler данных

Выбор пользовательских примеров

Просмотр сводной статистики

Просмотр операций очистки данных

Предварительный просмотр и применение операций

Изменение дисплея

Сохранение и экспорт кода

Обратная связь

Дополнительные ресурсы

Поделиться через

Ускорение подготовки данных с помощью Data Wrangler в Microsoft Fabric

Необходимые компоненты

Ограничения

Запуск Wrangler данных

Выбор пользовательских примеров

Просмотр сводной статистики

Просмотр операций очистки данных

Предварительный просмотр и применение операций

Изменение дисплея

Сохранение и экспорт кода

Связанный контент

Обратная связь

Дополнительные ресурсы