Компонент правки метаданных

В этой статье описывается компонент в конструкторе машинного обучения Azure.

Используйте модуль "Правка метаданных", чтобы изменить метаданные, связанные со столбцами в наборе данных. Значение и тип данных в наборе данных изменятся после использования компонента "Правка метаданных".

Типичные изменения метаданных могут включать:

  • Обработка логических или числовых столбцов как категориальных значений.

  • Указывает, какой столбец содержит метку класса или значения, которые вы хотите классифицировать или прогнозировать.

  • Пометка столбцов как функций.

  • Изменение значений даты/времени на числовые значения или наоборот.

  • Переименование столбцов.

Используйте правку метаданных в любое время, когда вам нужно изменить определение столбца, как правило, для обеспечения соответствия требованиям для последующего компонента. Например, некоторые компоненты работают только с определенными типами данных или требуют флагов в столбцах, таких как IsFeature или IsCategorical.

После выполнения необходимой операции вы можете сбросить метаданные в исходное состояние.

Настройка изменения метаданных

  1. В конструкторе машинного обучения Azure добавьте компонент правки метаданных в конвейер и подключите набор данных, который вы хотите обновить. Вы можете найти компонент в категории Преобразование данных.

  2. Щелкните Правка столбца на правой панели компонента и выберите столбец или набор столбцов для работы. Вы можете выбрать столбцы индивидуально по имени или индексу, или вы можете выбрать группу столбцов по типу.

  3. Выберите параметр Тип данных, если вам нужно назначить выбранным столбцам другой тип данных. Вам может потребоваться изменить тип данных для определенных операций. Например, если в исходном наборе данных числа обрабатываются как текст, вы должны изменить их на числовой тип данных перед использованием математических операций.

    • Поддерживаемые типы данных: Строка, Целое число, Двойной, Логический и Дата и время.

    • Если вы выбираете несколько столбцов, вы должны применить изменения метаданных ко всем выбранным столбцам. Например, предположим, вы выбрали два или три числовых столбца. Вы можете изменить их все на строковый тип данных и переименовать за одну операцию. Однако вы не можете изменить один столбец на строковый тип данных, а другой столбец с числа с плавающей запятой на целое число.

    • Если вы не укажете новый тип данных, метаданные столбца не изменятся.

    • Тип и значения столбца изменятся после выполнения операции редактирования метаданных. Вы можете восстановить исходный тип данных в любое время, используя "Изменить метаданные", чтобы сбросить тип данных столбца.

    Примечание.

    Формат даты и времени соответствует встроенному в Python формату даты и времени.
    Если вы измените какой-либо тип числа на тип Дата и время, оставьте поле Формат даты и времени пустым. В настоящее время невозможно указать целевой формат данных.

  4. Выберите параметр Категориальный, чтобы указать, что значения в выбранных столбцах следует рассматривать как категории.

    Например, у вас может быть столбец, содержащий числа 0, 1 и 2, но известно, что числа фактически означают "Для курящих", "Для некурящих" и "Неизвестно". В этом случае, помечая столбец как категорию, вы гарантируете, что значения будут использоваться только для группирования данных, а не для числовых вычислений.

  5. Используйте параметр Поля, если вы хотите изменить способ использования данных в модели машинным обучением Azure.

    • Функция: используйте этот параметр, чтобы пометить столбец как функцию компонентов, которые работают только со столбцами функций. По умолчанию все столбцы изначально рассматриваются как функции.

    • Метка: используйте этот параметр, чтобы отметить метку, которая также известна как предсказуемый атрибут или целевая переменная. Многие компоненты требуют, чтобы в наборе данных присутствовал ровно один столбец меток.

      Во многих случаях машинное обучение Azure может сделать вывод о том, что столбец содержит метку класса. Установив эти метаданные, вы можете убедиться, что столбец определен правильно. Установка этого параметра не изменяет значения данных. Это меняет только способ обработки данных некоторыми алгоритмами машинного обучения.

    Совет

    У вас есть данные, которые не попадают в эти категории? Например, ваш набор данных может содержать такие значения, как уникальные идентификаторы, которые не используются в качестве переменных. Иногда такие идентификаторы могут вызывать проблемы при использовании в модели.

    К счастью, машинное обучение Azure хранит все ваши данные, поэтому вам не нужно удалять такие столбцы из набора данных. Если вам нужно выполнить операции с каким-то определенным набором столбцов, просто временно удалите все остальные столбцы с помощью компонента Выбрать столбцы в наборе данных. Позже вы можете объединить столбцы обратно в набор данных с помощью компонента Добавить столбцы.

  6. Используйте следующие параметры, чтобы очистить предыдущий выбор и восстановить метаданные до значений по умолчанию.

    • Очистить функцию: используйте этот параметр, чтобы удалить флажок функции.

      Все столбцы изначально рассматриваются как объекты. Для компонентов, выполняющих математические операции, вам может потребоваться использовать этот вариант, чтобы избежать обработки числовых столбцов как переменных.

    • Очистить метку: используйте этот параметр, чтобы удалить метаданные метки из указанного столбца.

    • Очистить счет: используйте этот параметр, чтобы удалить метаданные оценки из указанного столбца.

      В настоящее время вы не можете явно пометить столбец как балл в Машинном обучении Azure. Однако некоторые операции приводят к тому, что столбец внутренне помечается как балл. Кроме того, пользовательский компонент R может выводить значения оценок.

  7. В поле Новые имена столбцов введите новое имя выбранного столбца или столбцов.

    • В именах столбцов можно использовать только символы, поддерживаемые кодировкой UTF-8. Пустые строки, значения NULL или имена, полностью состоящие из пробелов, не допускаются.

    • Чтобы переименовать несколько столбцов, введите имена в виде списка, разделенного запятыми, в порядке индексов столбцов.

    • Все выбранные столбцы необходимо переименовать. Вы не можете пропускать столбцы.

  8. Отправьте конвейер.

Следующие шаги

Ознакомьтесь с набором доступных компонентов для машинного обучения Azure.