Azure Open Datasets

Améliorez la précision de vos modèles de Machine Learning avec des jeux de données accessibles au public. Pour gagner du temps sur la découverte et la préparation des données, utilisez des ensembles de données analysées qui sont prêtes pour les projets d’apprentissage automatique.

Transport

Dataset Description
TartanAir : jeu de données de simulation AirSim AirSim - Génération de données de véhicule autonomes pour résoudre la cartographie et la localisation simultanées (SLAM).
Commission des taxis et limousines de la ville de New York : enregistrements de trajets en taxi jaune Les enregistrements de trajets en taxi jaune incluent les dates et heures de début et fin de trajet, les emplacements respectifs, la distance des trajets, les tarifs détaillés, les types de tarifs, les types de paiement et le nombre de passagers signalé par le conducteur.
Commission des services de taxis et de limousines de la ville de New York - enregistrements de trajets en taxi vert Les enregistrements de trajets en taxi vert incluent les dates et heures de début et fin de trajet, les emplacements respectifs, la distance des trajets, les tarifs détaillés, les types de tarifs, les types de paiement et le nombre de passagers signalé par le conducteur.
Commission des taxis de New York - Enregistrements des trajets de taxi Les enregistrements de trajets des VTC incluent le numéro de licence de la base de dispatch et la date de prise en charge, l’heure et l’ID d’emplacement de zone de taxi.

Santé et génomique

Dataset Description
COVID-19 Data Lake La collection COVID-19 Data Lake contient des jeux de données liés à la pandémie de COVID-19 qui proviennent de diverses sources, couvrent les données de suivi des patients et des tests, la politique de distanciation sociale, la capacité hospitalière, la mobilité, etc.
Jeu de données de recherche COVID-19 Jeu de données de texte intégral et de métadonnées d’articles savants liés au COVID-19 et aux métadonnées, optimisé pour la lisibilité des ordinateurs et mis à la disposition de la communauté mondiale de recherche.
Genomics Data Lake Le Genomics Data Lake propose divers ensembles de données publiques disponibles gratuitement, prêts à être intégrés dans vos flux de travail et applications d’analyse génomique. Les jeux de données contiennent des séquences de génome, diverses informations et des métadonnées sur le sujet/échantillon sous les formats de fichier BAM, FASTA, VCF et CSV.

Travail et économie

Dataset Description
US Labor Force Statistics (Statistiques de la population active américaine) US Labor Force Statistics fournit des statistiques sur la main-d’œuvre, les taux de participation à la main-d’œuvre et la population civile non institutionnelle par âge, par sexe, par race et par groupe ethnique aux États-Unis.
US National Employment Hours and Earnings (Heures d’emploi et revenus nationaux aux États-Unis) Le programme Current Employment Statistics (CES) produit des estimations détaillées de l’emploi non agricole, des heures de travail et des revenus des travailleurs salariés aux États-Unis.
US National Employment Hours and Earnings (Heures d’emploi et revenus au niveau des États aux États-Unis) Le programme Current Employment Statistics (CES) produit des estimations détaillées de l’emploi non agricole, des heures de travail et des revenus des travailleurs salariés aux États-Unis.
US Local Area Unemployment Statistics (Statistiques sur le chômage local aux États-Unis) Les jeux de données du programme de statistiques sur le chômage au niveau local produisent des données mensuelles et annuelles sur l’emploi, le chômage et la population active pour les régions et divisions de recensement, les États, les comtés, les régions métropolitaines et de nombreuses villes des États-Unis.
Indice américain des prix à la consommation L’Indice des prix du consommateur (CPI) mesure la variation moyenne au fil du temps dans les prix payés par les consommateurs urbains pour un panier de produits et de services de consommation.
Indice des prix producteur aux États-Unis - Industrie L’Indice des prix du producteur (PPI) mesure le changement moyen, au fil du temps, dans les prix de vente reçus par les producteurs nationaux pour leur production.
Indice des prix à la production aux États-Unis - Marchandises L’Indice des prix du producteur (PPI) mesure le changement moyen, au fil du temps, dans les prix de vente reçus par les producteurs nationaux pour leur commodités.

Population et sûreté

Dataset Description
Population américaine par comté Population des États-Unis par sexe et par race pour chaque comté américain tiré du recensement décennal de 2000 et 2010. Ce jeu de données est fourni par le Bureau du recensement des États-Unis (United States Census Bureau).
Population américaine par code postal Population des États-Unis par sexe et par race pour chaque code postal américain tiré du recensement décennal de 2010. Ce jeu de données est fourni par le Bureau du recensement des États-Unis (United States Census Bureau).
Données de sûreté de Boston Données concernant les appels aux services d’urgence (311) signalés à la ville de Boston. Ce jeu de données est stocké au format Parquet et reçoit des mises à jour quotidiennes.
Données de sûreté de Chicago Données concernant les appels aux services d’urgence (311) signalés à la ville de Chicago. Ce jeu de données est stocké au format Parquet et reçoit des mises à jour quotidiennes.
Données de sûreté de New York City Ce jeu de données contient toutes les demandes de service 311 à New York de 2010 à nos jours. Ce jeu de données est stocké au format Parquet et reçoit des mises à jour quotidiennes.
Données de sûreté de San Francisco Appel au pompiers et incidents 311 à San Francisco. Ce jeu de données contient les enregistrements historiques accumulés de 2015 à aujourd’hui.
Données de sécurité de Seattle Dispatches du 911/des pompiers de Seattle. Ce jeu de données est mis à jour quotidiennement. Il contient les enregistrements historiques accumulés de 2010 à aujourd’hui

Jeux de données supplémentaires et communs

Dataset Description
Diabètes Le jeu de données sur le diabète contient 442 échantillons avec 10 caractéristiques, ce qui en fait un outil idéal pour commencer à utiliser des algorithmes Machine Learning.
Données simulées de ventes de billets de JO Ce jeu de données est dérivé du jeu de données OJ de Dominick. Il inclut des données simulées supplémentaires dans le but de fournir un jeu de données qui facilite la formation simultanée de milliers de modèles sur Azure Machine Learning.
Base de données MNIST de chiffres manuscrits La base de données MNIST de chiffres manuscrits présente un ensemble d’entraînement comportant 60 000 exemples, ainsi qu’un ensemble test de 10 000 exemples. Les chiffres présentent une taille normalisée et sont centrés dans une image à taille fixe.
Jeu de données recommandations des actualités Microsoft MIcrosoft News Dataset (MIND) est un jeu de données à grande échelle pour la recherche d’actualités suggérées. Il fait office de jeu de données de référence pour les suggestions d’actualités, et de faciliter la recherche dans les systèmes de recommandation et les suggestions d’actualités.
Jours fériés Données sur les jours fériés dans le monde provenant du package de jours fériés PyPI et de Wikipédia, couvrant 38 pays ou régions de 1970 à 2099.
Reconnaissance vocale ouverte pour le russe Russain Open STT est un jeu de données de reconnaissance vocale à grande échelle pour la langue russe