Руководство по разработке модели кластеризации в R с помощью машинного обучения SQL

Область применения: SQL Server 2016 (13.x) и более поздних версий Управляемый экземпляр SQL Azure

В этом цикле учебников, состоящем из четырех частей, вы будете использовать R для разработки и развертывания модели кластеризации методом k-средних в Службах машинного обучения SQL Server или Кластерах больших данных для классификации данных клиентов.

В этом цикле учебников, состоящем из четырех частей, вы будете использовать R для разработки и развертывания модели кластеризации методом k-средних в Службах машинного обучения SQL Server для кластеризации данных клиентов.

В этом цикле учебников, состоящем из четырех частей, вы будете использовать R для разработки и развертывания модели кластеризации методом k-средних в службах SQL Server R Services для кластеризации данных клиентов.

В этом цикле учебников, состоящем из четырех частей, вы будете использовать R для разработки и развертывания модели кластеризации методом K-средних в Службах машинного обучения управляемого экземпляра SQL Azure для кластеризации данных клиентов.

В первой части этого цикла учебников вы настроите необходимые компоненты, а затем восстановите пример набора данных в базе данных. Во второй и третьей частях вы создадите сценарии R в записной книжке Azure Data Studio для анализа и подготовки этого примера данных, а также для обучения модели машинного обучения. Затем, в четвертой части, вы запустите эти сценарии R в базе данных с помощью хранимых процедур.

Кластеризацию можно описать как организацию данных по группам, где члены группы каким-либо образом похожи друг на друга. В рамках этой серии руководств вы можете представить себя владельцем розничного предприятия. Вы будете использовать метод k-средних для кластеризации клиентов в наборе данных о покупках и возвратах продуктов. Благодаря кластеризации клиентов вы можете более эффективно осуществлять маркетинговую деятельность, ориентируясь на конкретные группы. Кластеризация методом k-средних — это алгоритм неконтролируемого обучения, который ищет закономерности в данных на основе сходства.

В этой статье вы узнаете, как выполнять следующие задачи.

  • Восстановление примера базы данных

Во второй части вы узнаете, как подготовить данные из базы данных для выполнения кластеризации.

В третьей части вы узнаете, как создать и обучить модель кластеризации на основе k-средних в R.

В четвертой части вы узнаете, как создать хранимую процедуру в базе данных, которая может выполнять кластеризацию в R на основе новых данных.

Необходимые компоненты

  • Azure Data Studio. Записную книжку в Azure Data Studio вы будете использовать для SQL. Дополнительные сведения о записных книжках см. в статье Использование записных книжек в Azure Data Studio.

  • Интегрированная среда разработки R — в этом руководстве используется RStudio Desktop.

  • RODBC — этот драйвер используется в скриптах R, которые вы разрабатываете в этом руководстве. Установите его с помощью команды R install.packages("RODBC"), если этот драйвер еще не установлен. Дополнительные сведения о RODBC см. в разделе CRAN - Package RODBC (CRAN: пакет RODBC).

Восстановление примера базы данных

Образец набора данных, используемый в этом руководстве, был сохранен в файл резервной .bak копии базы данных для скачивания и использования. Этот набор данных является производным от набора данных tpcx-bb, предоставляемого Советом по оценке производительности обработки транзакций (TPC).

Примечание.

Если вы используете Службы машинного обучения в Кластерах больших данных, ознакомьтесь со статьей Восстановление базы данных на главном экземпляре кластера больших данных SQL Server.

  1. Скачайте файл tpcxbb_1gb.bak.

  2. Следуйте инструкциям из раздела Восстановление базы данных из файла резервной копии в Azure Data Studio, используя следующие сведения:

    • Выполните импорт из скачанного файла tpcxbb_1gb.bak.
    • Присвойте целевой базе данных имя tpcxbb_1gb.
  3. Вы можете убедиться, что набор данных существует после восстановления базы данных, запросив таблицу dbo.customer :

    USE tpcxbb_1gb;
    SELECT * FROM [dbo].[customer];
    
  1. Скачайте файл tpcxbb_1gb.bak.

  2. Следуйте инструкциям в разделе Восстановление базы данных в Управляемый экземпляр в SQL Server Management Studio, используя следующие сведения.

    • Выполните импорт из скачанного файла tpcxbb_1gb.bak.
    • Присвойте целевой базе данных имя tpcxbb_1gb.
  3. Вы можете убедиться, что набор данных существует после восстановления базы данных, запросив таблицу dbo.customer :

    USE tpcxbb_1gb;
    SELECT * FROM [dbo].[customer];
    

Очистка ресурсов

Если вы не собираетесь продолжать работу с этим учебником, удалите базу данных tpcxbb_1gb.

Следующий шаг

В первой части этого учебника вы выполнили следующие действия:

  • Установка необходимых компонентов
  • Восстановленный пример базы данных

Чтобы подготовить данные из для модели машинного обучения, перейдите ко второй части этого учебника: