Esercitazione su R: prevedere le tariffe dei taxi della città di New York con la classificazione binaria

Si applica a: SQL Server 2016 (13.x) e versioni successive Istanza gestita di SQL di Azure

In questa serie di esercitazioni in cinque parti per i programmatori SQL, verranno fornite informazioni sull'integrazione di R in SQL Server Machine Learning Services o nei cluster Big Data.

In questa serie di esercitazioni in cinque parti per i programmatori SQL verranno fornite informazioni sull'integrazione di R in SQL Server Machine Learning Services.

In questa serie di esercitazioni in cinque parti per i programmatori SQL verranno fornite informazioni sull'integrazione di R in SQL Server 2016 R Services.

In questa serie di esercitazioni in cinque parti per i programmatori SQL verranno fornite informazioni sull'integrazione di R in Machine Learning Services in Istanza gestita di SQL di Azure.

Verrà creata e distribuita una soluzione di Machine Learning basata su R usando un database di esempio in SQL Server. Verrà usato T-SQL, Azure Data Studio o SQL Server Management Studio e un'istanza del motore di database con il Machine Learning di SQL e il supporto del linguaggio R.

Questa serie di esercitazioni presenta le funzioni R usate in un flusso di lavoro di modellazione dei dati. Le parti includono l'esplorazione dei dati, la creazione e il training di un modello di classificazione binaria e la distribuzione del modello. Si useranno dati di esempio di New York City Taxi e Limousine Commission. Il modello che verrà compilato consente di prevedere se è probabile che per una corsa venga lasciata una mancia, in base all'ora del giorno, alla distanza percorsa e al luogo di partenza della corsa.

Nella prima parte di questa serie verranno installati i prerequisiti e verrà ripristinato il database di esempio. Nelle seconda e nella terza parte verranno sviluppati alcuni script R per preparare i dati ed eseguire il training di un modello di Machine Learning. Nella quarta e quinta parte verranno quindi eseguiti gli script R all'interno del database usando stored procedure T-SQL.

Contenuto dell'articolo:

  • Installare i prerequisiti
  • Ripristinare il database di esempio

Nella seconda parte verranno esaminati i dati di esempio e verranno generati alcuni tracciati.

Nella terza parte si apprenderà come creare funzionalità dai dati non elaborati tramite una funzione Transact-SQL. Tale funzione verrà quindi chiamata da una stored procedure per creare una tabella contenente i valori della funzionalità.

Nella quarta parte verranno caricati i moduli e verranno chiamate le funzioni necessarie per la creazione e il training del modello usando una stored procedure di SQL Server.

Nella quinta parte si apprenderà come rendere operativi i modelli sottoposti a training e salvati nella quarta parte.

Nota

Questa esercitazione è disponibile sia in R che in Python. Per la versione di Python, vedere Esercitazione su Python: stimare le tariffe dei taxi di New York con la classificazione binaria.

Prerequisiti

Tutte le attività possono essere eseguite usando stored procedure Transact-SQL in Azure Data Studio o Management Studio.

Questa esercitazione presuppone una certa familiarità con le operazioni di database di base, ad esempio la creazione di database e tabelle, l'importazione di dati e la scrittura di query SQL. Non si presuppone che l'utente abbia familiarità con il linguaggio R. Viene quindi fornito tutto il codice R necessario.

Background per sviluppatori SQL

Il processo di creazione di una soluzione di Machine Learning è complesso e può richiedere l'uso di più strumenti e il coordinamento di esperti in materia in diverse fasi:

  • recupero e pulizia dei dati
  • esplorazione dei dati e creazione di caratteristiche utili per la modellazione
  • training e ottimizzazione del modello
  • distribuzione nell'ambiente di produzione

Per lo sviluppo e i test del codice effettivo è opportuno usare un ambiente di sviluppo R dedicato. Dopo che lo script è stato testato, è tuttavia possibile distribuirlo facilmente in SQL Server usando stored procedure Transact-SQL nell'ambiente familiare di Azure Data Studio o Management Studio. Il wrapping del codice esterno nelle stored procedure è il meccanismo principale per rendere operativo il codice in SQL Server.

Dopo aver salvato il modello nel database, è possibile chiamarlo per eseguire stime da Transact-SQL usando le stored procedure.

Questa serie di esercitazioni in cinque parti presenta un flusso di lavoro tipico per l'esecuzione di analisi nel database con R e SQL Server ed è rivolta a programmatori SQL che non hanno familiarità con R o sviluppatori R che non hanno familiarità con SQL.

Passaggi successivi

In questo articolo si apprenderà come:

  • Installare i prerequisiti
  • Ripristinare il database di esempio