Esercitazione: sviluppare un modello di clustering in R con apprendimento automatico in SQL
Si applica a: SQL Server 2016 (13.x) e versioni successive Istanza gestita di SQL di Azure
In questa serie di esercitazioni in quattro parti si userà R per sviluppare e distribuire un modello di clustering K-Means in Machine Learning Services per SQL Server oppure in cluster Big Data per categorizzare i dati dei clienti.
In questa serie di esercitazioni in quattro parti si userà R per sviluppare e distribuire un modello di clustering K-Means in Machine Learning Services per SQL Server per il clustering dei dati dei clienti.
In questa serie di esercitazioni in quattro parti si userà R per sviluppare e distribuire un modello di clustering K-Means in R Services per SQL Server per il clustering dei dati dei clienti.
In questa serie di esercitazioni in quattro parti si userà R per sviluppare e distribuire un modello di clustering K-means in Machine Learning Services per Istanza gestita di SQL di Azure per il clustering dei dati dei clienti.
Nella prima parte della serie verranno configurati i prerequisiti per l'esercitazione e quindi verrà ripristinato un set di dati di esempio in un database. Nelle seconda e nella terza parte si svilupperanno alcuni script R in un notebook di Azure Data Studio per analizzare e preparare i dati di esempio ed eseguire il training di un modello di Machine Learning. Nella quarta parte verranno quindi eseguiti gli script R all'interno di un database mediante stored procedure.
Per clustering si intende l'organizzazione dei dati in gruppi in cui i membri di ciascun gruppo sono simili per certi aspetti. Per questa serie di esercitazioni, si supponga di essere proprietari di un'azienda di vendita al dettaglio. Si userà l'algoritmo K-Means per eseguire il clustering dei clienti in un set di dati di acquisti e resi di prodotti. Il clustering dei clienti favorisce attività di marketing più mirate rivolte a gruppi specifici. Il clustering K-Means è un algoritmo di apprendimento non supervisionato che cerca schemi nei dati in base ad analogie.
In questo articolo si apprenderà come:
- Ripristinare un database di esempio
Nella seconda parte si apprenderà come preparare i dati di un database per il clustering.
Nella terza parte si apprenderà come creare ed eseguire il training di un modello di clustering K-Means in R.
Nella quarta parte si apprenderà come creare una stored procedure in un database in grado di eseguire il clustering in R in base ai nuovi dati.
Prerequisiti
- Machine Learning Services per SQL Server con l'opzione del linguaggio Python: seguire le istruzioni di installazione nella guida all'installazione di Windows o nella guida all'installazione di Linux. È anche possibile abilitare Machine Learning Services in cluster Big Data di SQL Server.
- Machine Learning Services per SQL Server con l'opzione del linguaggio R: seguire le istruzioni di installazione nella guida all'installazione di Windows.
Servizi di Machine Learning sull’istanza gestita di SQL di Azure. Per informazioni, vedere Panoramica di Machine Learning Services per Istanza gestita di SQL di Azure.
SQL Server Management Studio (SSMS): - Usare SSMS per ripristinare il database di esempio in Istanza gestita di SQL di Azure. Per il download, vedere Scaricare SQL Server Management Studio (SSMS).
Azure Data Studio. Si userà un notebook in Azure Data Studio per SQL. Per altre informazioni sui notebook in Azure Data Studio, vedere Come usare i notebook in Azure Data Studio.
IDE R - Questa esercitazione usa RStudio Desktop.
RODBC - Questo driver viene usato negli script R che verranno sviluppati in questa esercitazione. Se non è già installato, eseguirne l'installazione usando il comando R
install.packages("RODBC")
. Per altre informazioni su RODBC, vedere CRAN - Pacchetto RODBC.
Ripristinare il database di esempio
Il set di dati di esempio usato in questa esercitazione è stato salvato in un file di backup del database .bak
che è possibile scaricare e usare. Questo set di dati deriva dal set di dati tpcx-bb fornito dal Transaction Processing Performance Council (TPC).
Nota
Se si usa Machine Learning Services in cluster Big Data, vedere l'articolo su come ripristinare un database nell'istanza master di un cluster Big Data di SQL Server.
Scaricare il file tpcxbb_1gb.bak.
Seguire le istruzioni in Ripristinare un database da un file di backup in Azure Data Studio usando i dettagli seguenti:
- Importare i dati dal file
tpcxbb_1gb.bak
scaricato. - Assegnare al database di destinazione il nome
tpcxbb_1gb
.
- Importare i dati dal file
È possibile verificare che il set di dati esista dopo il ripristino del database eseguendo una query sulla tabella
dbo.customer
:USE tpcxbb_1gb; SELECT * FROM [dbo].[customer];
Scaricare il file tpcxbb_1gb.bak.
Seguire le istruzioni in Ripristinare un database in un'istanza gestita in SQL Server Management Studio, usando i dati seguenti:
- Importare i dati dal file
tpcxbb_1gb.bak
scaricato. - Assegnare al database di destinazione il nome
tpcxbb_1gb
.
- Importare i dati dal file
È possibile verificare che il set di dati esista dopo il ripristino del database eseguendo una query sulla tabella
dbo.customer
:USE tpcxbb_1gb; SELECT * FROM [dbo].[customer];
Pulire le risorse
Se non si intende continuare con questa esercitazione, eliminare il database tpcxbb_1gb
.
Passaggio successivo
Nella prima parte di questa serie di esercitazioni sono stati completati i passaggi seguenti:
- Sono stati installati i prerequisiti
- È stato ripristinato un database di esempio
Per preparare i dati per il modello di Machine Learning, seguire la seconda parte di questa serie di esercitazioni: