Преобразование в набор данных
В настоящей статье описано использование компонента "Преобразование в набор данных" в конструкторе Машинного обучения Azure для преобразования любых данных конвейера во внутренний формат конструктора.
В большинстве случаев преобразование не требуется. Машинное обучение Azure неявно преобразует данные в собственный формат набора данных при выполнении любой операции с данными.
Рекомендуем сохранять данные в формате набора данных, если выполнена какая-либо нормализация или очистка набора данных и нужно обеспечить использование изменений в других конвейерах.
Примечание.
Модуль "Преобразование в набор данных" изменяет только формат данных. Он не сохраняет новую копию данных в рабочей области. Чтобы сохранить набор данных, дважды щелкните порт вывода и выберите Сохранение набора данных, а затем введите новое имя.
Использование модуля "Преобразование в набор данных"
Рекомендуем использовать компонент Изменение метаданных для подготовки набора данных к использованию в модуле "Преобразование в набор данных". При необходимости можно добавлять или изменять имена столбцов, изменять типы данных и вносить другие изменения.
Добавьте компонент "Преобразование в набор данных" в конвейер. Этот компонент можно найти в категории Преобразование данных в конструкторе.
Подключите его к любому компоненту, который выводит набор данных.
Так как данные являются табличными, их можно преобразовать в набор данных. Сюда входят данные, загруженные с помощью импорта данных, данные, созданные с помощью ввода данных вручную, или наборы данных, преобразованные благодаря применению преобразования.
В раскрывающемся списке Действие укажите, нужно ли выполнять очистку данных перед сохранением набора данных.
None. Используйте данные как есть.
SetMissingValue. Задайте для определенного значения отсутствующее значение в наборе данных. Заполнитель по умолчанию — вопросительный знак (?), но можно использовать параметр Настраиваемое отсутствующее значение для ввода другого значения. Например, если ввести такси для настраиваемого отсутствующего значения, все экземпляры такси в наборе данных будут заменены на отсутствующее значение.
ReplaceValues. Используйте этот параметр, чтобы указать одно точное значение, которое должно быть заменено любым другим точным значением. Отсутствующие или настраиваемые значения можно заменить, задав метод Replace:
- Missing. Выберите этот параметр, чтобы заменить отсутствующие значения во входном наборе данных. В поле Новое значение введите значение для замены отсутствующего значения.
- Custom. Выберите этот параметр, чтобы заменить настраиваемые значения во входном наборе данных. В поле Настраиваемое значение введите значение, которое необходимо найти. Например, если данные содержат строку
obs
, используемую в качестве заполнителя для отсутствующих значений, введитеobs
. В поле Новое значение введите новое значение для замены исходной строки.
Обратите внимание, что операция ReplaceValues применяется только к точным совпадениям. К примеру, эти строки не будут затронуты:
obs.
,obsolete
.Отправьте конвейер.
Результаты
- Чтобы сохранить полученный набор данных с новым именем, на правой панели компонента выберите значок регистрации набора данных на вкладке Выходные данные.
Технические примечания
Любой модуль, который принимает набор данных в качестве входных данных, также может использовать данные CSV-файла или TSV-файла. Входные данные предварительно обрабатываются перед выполнением любого кода компонента. Предварительная обработка эквивалентна запуску модуля "Преобразование в набор данных" для входных данных.
Данные в формате SVMLight невозможно преобразовать в набор данных.
При указании пользовательской операции замены операция поиска и замены применяется к полным значениям. Частичные совпадения не допускаются. Например, можно заменить 3 на –1 или 33, но нельзя заменить 3 на двухзначное число, такое как 35.
Для пользовательских операций замены замена автоматически завершается ошибкой, если вы используете в качестве замены любой символ, который не соответствует текущему типу данных столбца.
Следующие шаги
Ознакомьтесь с набором доступных компонентов для машинного обучения Azure.