Esercitazione su R: prevedere le tariffe dei taxi della città di New York con la classificazione binaria
Si applica a: SQL Server 2016 (13.x) e versioni successive Istanza gestita di SQL di Azure
In questa serie di esercitazioni in cinque parti per i programmatori SQL, verranno fornite informazioni sull'integrazione di R in SQL Server Machine Learning Services o nei cluster Big Data.
In questa serie di esercitazioni in cinque parti per i programmatori SQL verranno fornite informazioni sull'integrazione di R in SQL Server Machine Learning Services.
In questa serie di esercitazioni in cinque parti per i programmatori SQL verranno fornite informazioni sull'integrazione di R in SQL Server 2016 R Services.
In questa serie di esercitazioni in cinque parti per i programmatori SQL verranno fornite informazioni sull'integrazione di R in Machine Learning Services in Istanza gestita di SQL di Azure.
Verrà creata e distribuita una soluzione di Machine Learning basata su R usando un database di esempio in SQL Server. Verrà usato T-SQL, Azure Data Studio o SQL Server Management Studio e un'istanza del motore di database con il Machine Learning di SQL e il supporto del linguaggio R.
Questa serie di esercitazioni presenta le funzioni R usate in un flusso di lavoro di modellazione dei dati. Le parti includono l'esplorazione dei dati, la creazione e il training di un modello di classificazione binaria e la distribuzione del modello. Si useranno dati di esempio di New York City Taxi e Limousine Commission. Il modello che verrà compilato consente di prevedere se è probabile che per una corsa venga lasciata una mancia, in base all'ora del giorno, alla distanza percorsa e al luogo di partenza della corsa.
Nella prima parte di questa serie verranno installati i prerequisiti e verrà ripristinato il database di esempio. Nelle seconda e nella terza parte verranno sviluppati alcuni script R per preparare i dati ed eseguire il training di un modello di Machine Learning. Nella quarta e quinta parte verranno quindi eseguiti gli script R all'interno del database usando stored procedure T-SQL.
Contenuto dell'articolo:
- Installare i prerequisiti
- Ripristinare il database di esempio
Nella seconda parte verranno esaminati i dati di esempio e verranno generati alcuni tracciati.
Nella terza parte si apprenderà come creare funzionalità dai dati non elaborati tramite una funzione Transact-SQL. Tale funzione verrà quindi chiamata da una stored procedure per creare una tabella contenente i valori della funzionalità.
Nella quarta parte verranno caricati i moduli e verranno chiamate le funzioni necessarie per la creazione e il training del modello usando una stored procedure di SQL Server.
Nella quinta parte si apprenderà come rendere operativi i modelli sottoposti a training e salvati nella quarta parte.
Nota
Questa esercitazione è disponibile sia in R che in Python. Per la versione di Python, vedere Esercitazione su Python: stimare le tariffe dei taxi di New York con la classificazione binaria.
Prerequisiti
- Installare SQL Server 2016 R Services
- A partire da SQL Server 2019, il meccanismo di isolamento richiede di assegnare le autorizzazioni appropriate alla directory in cui è archiviato il file del tracciato. Per altre informazioni su come impostare queste autorizzazioni, consultare la sezione Autorizzazioni dei file in SQL Server 2019 su Windows: Modifiche all'isolamento per i servizi di apprendimento automatico.
- Ripristinare il database demo di NYC Taxi
Tutte le attività possono essere eseguite usando stored procedure Transact-SQL in Azure Data Studio o Management Studio.
Questa esercitazione presuppone una certa familiarità con le operazioni di database di base, ad esempio la creazione di database e tabelle, l'importazione di dati e la scrittura di query SQL. Non si presuppone che l'utente abbia familiarità con il linguaggio R. Viene quindi fornito tutto il codice R necessario.
Background per sviluppatori SQL
Il processo di creazione di una soluzione di Machine Learning è complesso e può richiedere l'uso di più strumenti e il coordinamento di esperti in materia in diverse fasi:
- recupero e pulizia dei dati
- esplorazione dei dati e creazione di caratteristiche utili per la modellazione
- training e ottimizzazione del modello
- distribuzione nell'ambiente di produzione
Per lo sviluppo e i test del codice effettivo è opportuno usare un ambiente di sviluppo R dedicato. Dopo che lo script è stato testato, è tuttavia possibile distribuirlo facilmente in SQL Server usando stored procedure Transact-SQL nell'ambiente familiare di Azure Data Studio o Management Studio. Il wrapping del codice esterno nelle stored procedure è il meccanismo principale per rendere operativo il codice in SQL Server.
Dopo aver salvato il modello nel database, è possibile chiamarlo per eseguire stime da Transact-SQL usando le stored procedure.
Questa serie di esercitazioni in cinque parti presenta un flusso di lavoro tipico per l'esecuzione di analisi nel database con R e SQL Server ed è rivolta a programmatori SQL che non hanno familiarità con R o sviluppatori R che non hanno familiarità con SQL.
Passaggi successivi
In questo articolo si apprenderà come:
- Installare i prerequisiti
- Ripristinare il database di esempio