Руководство по R. Прогнозирование тарифов на такси Нью-Йорка с помощью двоичной классификации
Область применения: SQL Server 2016 (13.x) и более поздних версий Управляемый экземпляр SQL Azure
В этой серии руководств для программистов SQL вы узнаете об интеграции R в Службах машинного обучения SQL Server или в кластерах больших данных.
В этой серии (из пяти частей) руководств для программистов SQL вы узнаете об интеграции R в Службах машинного обучения SQL Server.
В этой серии руководств для программистов SQL вы узнаете об интеграции R в Службы R для SQL Server 2016.
В этой серии (из пяти частей) руководств для программистов SQL вы узнаете об интеграции R в службы машинного обучения в управляемом экземпляре SQL Azure.
Вы создадите и развернете решение для машинного обучения на базе R, используя образец базы данных на SQL Server. Вы будете использовать T-SQL, Azure Data Studio или SQL Server Management Studio, а также экземпляр ядра СУБД с поддержкой машинного обучения SQL и языка R.
В этой серии руководств описываются функции R, используемые в рабочем процессе моделирования данных. Серия содержит следующие этапы: исследование данных, сборка и обучение модели двоичной классификации и развертывание модели. Вы будете использовать образец данных Комиссии по такси и лимузинам Нью‑Йорка. Модель, которую вы создадите, будет предсказывать вероятность получения чаевых в зависимости от времени суток, пройденного расстояния и места посадки пассажира.
В первой части этой серии вы установите необходимые компоненты и восстановите образец базы данных. Во второй и третьей частях вы создадите сценарии R для подготовки данных и обучения модели машинного обучения. Затем в четвертой и пятой частях вы запустите эти скрипты R в базе данных с помощью хранимых процедур T-SQL.
Работая с этой статьей, вы узнаете о следующем.
- Установка необходимых компонентов
- Восстановление примера базы данных
Во второй части вы ознакомитесь с образцом данных и создадите несколько графиков.
В третьей части вы узнаете, как создавать функции из необработанных данных с помощью функции Transact-SQL. Затем вы вызовите эту функцию из хранимой процедуры, чтобы создать таблицу, содержащую значения характеристик.
В четвертой части вы научитесь загружать модули и вызывать необходимые функции для создания и обучения модели с помощью хранимой процедуры SQL Server.
Из пятой части вы узнаете, как ввести в эксплуатацию модели, которые были обучены и сохранены в соответствии с инструкциями в четвертой части.
Примечание.
Это руководство доступно как для языка R, так и для Python. Сведения о версии Python см . в руководстве по Python. Прогнозирование тарифов на такси Нью-Йорка с помощью двоичной классификации.
Необходимые компоненты
- Установка Служб R в SQL Server 2016
- Начиная с SQL Server 2019, механизм изоляции требует предоставления соответствующих разрешений каталогу, в котором хранится файл графика. Дополнительные сведения о настройке этих разрешений см. в разделе "Разрешения файлов" в SQL Server 2019 в Windows: изменения изоляции для служб Машинное обучение.
- Восстановление демонстрационной базы данных нью-йоркского такси
Все задачи можно выполнять с помощью хранимых процедур Transact-SQL в Azure Data Studio или в Management Studio.
В этом руководстве предполагается, что вы уже знакомы с основными операциями с базой данных, такими как создание баз данных и таблиц, импорт данных и написание запросов SQL. Знание языка R не требуется. Поэтому весь код на R предоставляется в готовом виде.
Пояснения для разработчиков на SQL
Процесс создания решения машинного обучения — это сложная задача, для которой может потребоваться использование нескольких средств, а также координация работы экспертов в различных областях, и которая состоит из нескольких этапов:
- получение и очистка данных;
- изучение данных и выявление характеристик, полезных для моделирования;
- обучение и настройка модели;
- развертывание в рабочей среде.
Разработку и тестирование написанного кода лучше выполнять в выделенной среде разработки R. Но после завершения тестирования скрипта его можно легко развернуть в SQL Server с помощью хранимых процедур Transact-SQL в привычной среде Azure Data Studio или Management Studio. Упаковка внешнего кода в хранимые процедуры является основным механизмом для эксплуатации кода в SQL Server.
Сохранив модель в базе данных, вы сможете вызвать ее для получения прогнозов из Transact-SQL с помощью хранимых процедур.
Если вы программист SQL, который малознаком с R, или разработчиком на R, малознакомым с SQL, в этой серии руководств можно увидеть типичный рабочий процесс для реализации аналитики в базе данных с помощью R и SQL Server.
Следующие шаги
Работая с этой статьей, вы выполните следующие задачи:
- Установленные компоненты
- Восстановлена демонстрационная база данных