Données de démonstration Taxis de New York pour les didacticiels SQL Server Python et R

S’applique à : SQL Server 2016 (13.x) et versions ultérieures Azure SQL Managed Instance

Cet article explique comment configurer une base de données exemple qui se compose de données publiques issues de la New York City Taxi and Limousine Commission. Ces données sont utilisées dans plusieurs didacticiels R et Python pour l’analytique en base de données sur SQL Server. Pour accélérer l’exécution de l’exemple de code, nous avons créé un échantillon représentatif de 1 % des données. Sur votre système, le fichier de sauvegarde de la base de données fait légèrement plus de 90 Mo, ce qui donne 1,7 million de lignes dans la table de données principale.

Pour effectuer cet exercice, vous avez besoin de SQL Server Management Studio ou d’un autre outil en mesure de restaurer un fichier de sauvegarde de base de données et d’exécuter des requêtes T-SQL.

Les didacticiels et les démarrages rapides utilisant ce jeu de données sont inclus dans les articles suivants :

Télécharger les fichiers

La base de données exemple est un fichier de sauvegarde SQL Server 2016 (.bak) hébergé par Microsoft. Vous pouvez le restaurer sur SQL Server 2016 et les versions ultérieures. Le téléchargement des fichiers démarre immédiatement quand vous ouvrez le lien.

La taille du fichier est d’environ 90 Mo.

Notes

Pour restaurer l’exemple de base de données sur Clusters Big Data SQL Server, téléchargez NYCTaxi_Sample.bak et suivez les instructions Restauration d’une base de données dans l’instance maître Clusters Big Data SQL Server.

Notes

Pour restaurer l’exemple de base de données sur Machine Learning Services dans Azure SQL Managed Instance, suivez les instructions de la section Démarrage rapide : Restaurer une base de données dans Azure SQL Managed Instance à l’aide du fichier .bak de la base de données de démonstration des services de taxi de New York : https://aka.ms/sqlmldocument/NYCTaxi_Sample.bak.

  1. Téléchargez le fichier de sauvegarde de base de données NYCTaxi_Sample.bak.

  2. Copiez le fichier dans C:\Program files\Microsoft SQL Server\MSSQL-instance-name\MSSQL\Backup ou un chemin similaire, pour le dossier par défaut Backup de votre instance.

  3. Dans SSMS, cliquez avec le bouton droit sur Bases de données et puis sélectionnez Restaurer les fichiers et groupes de fichiers.

  4. Saisissez NYCTaxi_Sample en tant que nom de la base de données.

  5. Sélectionnez À partir de l’appareil et ouvrez la page de sélection du fichier pour sélectionner le fichier de sauvegarde NYCTaxi_Sample.bak. Sélectionnez Ajouter pour sélectionner NYCTaxi_Sample.bak.

  6. Cochez la case Restaurer et sélectionnez OK pour restaurer la base de données.

Vérifier les objets de base de données

Vérifiez que les objets de base de données existent sur l’instance de SQL Server à l’aide de SQL Server Management Studio. Vous devez voir la base de données, les tables, les fonctions et les procédures stockées.

rsql_devtut_BrowseTables

Objets dans la base de données NYCTaxi_Sample

Le tableau suivant récapitule les objets créés dans la base de données de démonstration Taxi de NYC.

Nom de l'objet Type d'objet Description
NYCTaxi_Sample database Crée une base de données et deux tables :

Table dbo.nyctaxi_sample : contient le jeu de données principal Taxis de New York. Un index cluster columnstore est ajouté à la table pour améliorer les performances du stockage et des requêtes. L’échantillon de 1 % du jeu de données Taxis de New York sera inséré dans cette table.

Tableau dbo.nyc_taxi_models : permet de rendre persistant le modèle d’analytique avancé entraîné.
fnCalculateDistance fonction scalaire Calcule la distance directe entre les lieux de prise en charge et de dépose. Cette fonction est utilisée pour Créer des caractéristiques de données, Entraîner et enregistrer un modèle et Rendre le modèle R opérationnel.
fnEngineerFeatures fonction table Crée de nouvelles caractéristiques de données pour l’apprentissage du modèle. Cette fonction est utilisée pour Créer des caractéristiques de données et Rendre le modèle R opérationnel.

Les procédures stockées sont créées à l’aide de scripts R et Python disponibles dans différents didacticiels. Le tableau suivant récapitule les procédures stockées que vous pouvez éventuellement ajouter à la base de données de démonstration Taxis de New York quand vous exécutez un script de différentes leçons.

Procédure stockée Langage Description
RxPlotHistogram R Appelle la fonction RevoScaleR rxHistogram pour tracer l’histogramme d’une variable, puis retourne le tracé sous forme d’objet binaire. Cette procédure stockée est utilisée pour Explorer et visualiser les données.
RPlotRHist R Crée un graphique à l’aide de la fonction Hist et enregistre la sortie en tant que fichier PDF local. Cette procédure stockée est utilisée pour Explorer et visualiser les données.
RxTrainLogitModel R Effectue l’apprentissage d’un modèle de régression logistique en appelant un package R. Le modèle prédit la valeur de la colonne tipped. L’apprentissage est effectué à l’aide d’un échantillon de 70 % des données sélectionné de façon aléatoire. La sortie de la procédure stockée représente le modèle entraîné, qui est enregistré dans la table dbo.nyc_taxi_models. Cette procédure stockée est utilisée pour Entraîner et enregistrer un modèle.
RxPredictBatchOutput R Appelle le modèle entraîné pour créer des prédictions à l’aide du modèle. La procédure stockée accepte une requête comme paramètre d’entrée et retourne une colonne de valeurs numériques qui contient les scores pour les lignes d’entrée. Cette procédure stockée est utilisée pour Prédire les résultats potentiels.
RxPredictSingleRow R Appelle le modèle entraîné pour créer des prédictions à l’aide du modèle. Cette procédure stockée accepte une nouvelle observation comme entrée, avec des valeurs de caractéristiques passées comme paramètres inline, et retourne une valeur qui prédit l’issue de la nouvelle observation. Cette procédure stockée est utilisée pour Prédire les résultats potentiels.

Interroger les données

En guise d’étape de validation, exécutez une requête pour confirmer que les données ont été chargées.

  1. Dans l’Explorateur d’objets, sous Bases de données, cliquez avec le bouton droit sur la base de données NYCTaxi_Sample et démarrez une nouvelle requête.

  2. Exécuter des requêtes de base :

    SELECT TOP(10) * FROM dbo.nyctaxi_sample;
    SELECT COUNT(*) FROM dbo.nyctaxi_sample;
    

La base de données contient 1,7 million de lignes.

  1. Dans la base de données se trouve une table dbo.nyctaxi_sample qui contient le jeu de données. Pour optimiser cette table de données pour les calculs basés sur les jeux, un index columnstore a été ajouté. Exécutez cette instruction pour générer un résumé rapide sur la table.

    SELECT DISTINCT [passenger_count]
        , ROUND (SUM ([fare_amount]),0) as TotalFares
        , ROUND (AVG ([fare_amount]),0) as AvgFares
    FROM [dbo].[nyctaxi_sample]
    GROUP BY [passenger_count]
    ORDER BY  AvgFares DESC
    

Les résultats doivent être similaires à ceux affichés dans la capture d’écran suivante.

Informations de résumé de la table

Étapes suivantes

L’échantillon de données Taxis de New York est désormais disponible pour vos travaux pratiques.