Загрузка данных для обучения в построитель моделей
Сведения о том, как загружать наборы данных для обучения из файла или базы данных SQL Server для использования в одном из сценариев построителя моделей с помощью ML.NET. В сценариях построителя моделей в качестве данных для обучения можно использовать базы данных SQL Server, файлы изображений и форматы CSV или TSV.
Model Builder поддерживает только файлы TSV, CSV и TXT с разделением запятыми, знаками табуляции и точками с запятой, а также изображения PNG и JPG.
Сценарии построителя моделей
Построитель моделей позволяет создавать модели для следующих сценариев машинного обучения:
- Классификация данных (двоичная и многоклассовая классификация): классификация текстовых данных по двум категориям или более.
- Прогнозирование значений (регрессия): прогнозирование числового значения.
- Классификация изображений (глубокое обучение): классификация изображений по двум категориям или более.
- Рекомендация (рекомендация): создание списка предлагаемых элементов для конкретного пользователя.
- Обнаружение объектов (глубокое обучение): обнаружение и определение объекта на изображениях. с возможностью добавления соответствующей метки.
В этой статье рассматриваются сценарии классификации и регрессии по текстовым или числовым данным, а также сценарии классификации изображений и обнаружения объектов.
Загрузка текстовых или числовых данных из файла
В построитель моделей можно загружать текстовые или числовые данные из файла. Он принимает текстовые форматы, в которых значения разделяются запятыми (CSV) или табуляциями (TSV).
На этапе добавления данных в построителе моделей выберите Файл в качестве типа источника данных.
Нажмите кнопку Обзор рядом с текстовым полем, а затем найдите и выберите в проводнике нужный файл данных.
Выберите категорию в раскрывающемся списке Столбец для прогнозирования (метка).
Примечание.
(Необязательно) сценарии классификации данных: если тип данных столбца меток (значение в раскрывающемся списке "Столбец для прогнозирования (метка)" имеет значение Boolean (True/False), в конвейере обучения модели используется алгоритм двоичной классификации. В противном случае используется обучающий алгоритм многоклассовой классификации. Используйте Дополнительные параметры данных, чтобы изменить тип данных для столбца меток и сообщить Model Builder, какой тип обучающего алгоритма он должен использовать для ваших данных.
Обновите данные в ссылке Дополнительные параметры данных, чтобы задать параметры столбцов или обновить форматирование данных.
На этом настройка файла источника данных для передачи в построитель моделей завершается. Нажмите кнопку Следующий шаг, чтобы перейти к следующему шагу в Model Builder.
Загрузка данных из базы данных SQL Server
Построитель моделей поддерживает загрузку данных из локальных и удаленных баз данных SQL Server.
Файл локальной базы данных
Чтобы загрузить данные из файла базы данных SQL Server в Model Builder, выполните приведенные ниже действия.
На этапе добавления данных в Model Builder выберите в раскрывающемся списке источник данных SQL Server.
Нажмите кнопку Выбрать источник данных.
- В диалоговом окне Выбор источника данных выберите Файл базы данных Microsoft SQL Server.
- Снимите флажок Всегда использовать этот вариант и щелкните Продолжить.
- В диалоговом окне Свойства подключения щелкните Обзор и выберите скачанный MDF-файл.
- Выберите ОК
Выберите имя набора данных из раскрывающегося списка Имя таблицы.
В раскрывающемся списке Столбец для прогнозирования (метка) выберите категорию данных, для которой вы намерены создать прогноз.
Примечание.
(Необязательно) сценарии классификации данных: если тип данных столбца меток (значение в раскрывающемся списке "Столбец для прогнозирования (метка)" имеет значение Boolean (True/False), в конвейере обучения модели используется алгоритм двоичной классификации. В противном случае используется обучающий алгоритм многоклассовой классификации. Используйте Дополнительные параметры данных, чтобы изменить тип данных для столбца меток и сообщить Model Builder, какой тип обучающего алгоритма он должен использовать для ваших данных.
Обновите данные в ссылке Дополнительные параметры данных, чтобы задать параметры столбцов или обновить форматирование данных.
Удаленная база данных
Чтобы загрузить данные из подключения к базе данных SQL Server в Model Builder:
На этапе добавления данных в Model Builder выберите в раскрывающемся списке источник данных SQL Server.
Нажмите кнопку Выбрать источник данных.
- В диалоговом окне Выбор источника данных выберите Microsoft SQL Server.
В диалоговом окне Свойства соединения введите свойства базы данных Microsoft SQL.
- Укажите имя сервера, на котором находится таблица, к которой необходимо подключиться.
- Настройте проверку подлинности на сервере. Если выбран вариант Проверка подлинности SQL Server, введите имя пользователя и пароль сервера.
- Выберите базу данных для подключения в раскрывающемся списке Выбор или ввод имени базы данных. Значение должно заполняться автоматически, если имя сервера и данные для входа указаны правильно.
- Выберите ОК
Выберите имя набора данных из раскрывающегося списка Имя таблицы.
В раскрывающемся списке Столбец для прогнозирования (метка) выберите категорию данных, для которой вы намерены создать прогноз.
Примечание.
(Необязательно) сценарии классификации данных: если тип данных столбца меток (значение в раскрывающемся списке "Столбец для прогнозирования (метка)" имеет значение Boolean (True/False), в конвейере обучения модели используется алгоритм двоичной классификации. В противном случае используется обучающий алгоритм многоклассовой классификации. Используйте Дополнительные параметры данных, чтобы изменить тип данных для столбца меток и сообщить Model Builder, какой тип обучающего алгоритма он должен использовать для ваших данных.
Обновите данные в ссылке Дополнительные параметры данных, чтобы задать параметры столбцов или обновить форматирование данных.
На этом настройка файла источника данных для передачи в построитель моделей завершается. Щелкните ссылку Следующий шаг, чтобы перейти к следующему шагу в Model Builder.
Настройка файлов данных классификации изображений
Model Builder ожидает получить данные классификации изображений в формате файлов JPG или PNG, упорядоченных в папки с именами категорий классификации.
Чтобы загрузить изображения в построитель моделей, укажите путь к одному каталогу верхнего уровня:
- Этот каталог верхнего уровня должен содержать по одной вложенной папке для каждой из прогнозируемых категорий.
- Каждая вложенная папка содержит файлы изображений, относящиеся к соответствующей категории.
В представленной ниже структуре папок на верхнем уровне расположен каталог flower_photos. В нем есть пять подкаталогов, которые соответствуют категориям для прогнозирования: daisy, dandelion, roses, sunflowers и tulips. Каждый из этих подкаталогов содержит изображения соответствующей категории.
\---flower_photos
+---daisy
| 100080576_f52e8ee070_n.jpg
| 102841525_bd6628ae3c.jpg
| 105806915_a9c13e2106_n.jpg
|
+---dandelion
| 10443973_aeb97513fc_m.jpg
| 10683189_bd6e371b97.jpg
| 10919961_0af657c4e8.jpg
|
+---roses
| 102501987_3cdb8e5394_n.jpg
| 110472418_87b6a3aa98_m.jpg
| 118974357_0faa23cce9_n.jpg
|
+---sunflowers
| 127192624_afa3d9cb84.jpg
| 145303599_2627e23815_n.jpg
| 147804446_ef9244c8ce_m.jpg
|
\---tulips
100930342_92e8746431_n.jpg
107693873_86021ac4ea_n.jpg
10791227_7168491604.jpg
Настройка файлов данных изображений для обнаружения объектов
Model Builder поддерживает данные изображений для обнаружения объектов в формате JSON, созданном с помощью средства VoTT. Файл JSON находится в папке vott-json-export в целевом расположении, указанном в параметрах проекта.
Файл JSON состоит из следующих сведений, созданных с помощью средства VoTT:
- все созданные теги;
- расположения файла изображения;
- сведения об ограничивающем прямоугольнике изображения;
- тег, связанный с изображением.
Дополнительные сведения о подготовке данных для обнаружения объектов см. в статье Создание данных обнаружения объектов с помощью средства VoTT.
Следующие шаги
В этих руководствах вы найдете процедуры, позволяющие создать приложения машинного обучения с помощью построителя моделей:
- Создание данных обнаружения объектов с помощью средства VoTT
- Прогнозирование цен с помощью регрессии
- Анализ тональности в веб-приложении с использованием двоичной классификации
Если вы обучаете модель с помощью кода, узнайте, как загружать данные с помощью API-интерфейса ML.NET.