Azure Open Datasets

Förbättra noggrannheten i dina maskininlärningsmodeller med datamängder som är offentligt tillgängliga. Om du vill spara tid på dataidentifiering och förberedelse använder du utvalda datauppsättningar som är redo för maskininlärningsprojekt.

Transport

Datamängd beskrivning
TartanAir: Datauppsättning för AirSim-simulering AirSim Autonomt fordon som genereras för att lösa samtidig lokalisering och mappning (SLAM).
NYC Taxi & Limousine Kommissionen - gul taxi resa poster De gula taxiresorna inkluderar upphämtnings- och avlämningsdatum/tider, upphämtnings- och avlämningsplatser, reseavstånd, specificerade priser, pristyper, betalningstyper och förarrapporterade passagerarantal.
NYC Taxi & Limousine Kommissionen - grön taxi resa poster De gröna taxiresorna inkluderar upphämtnings- och avlämningsdatum/tider, upphämtnings- och avlämningsplatser, reseavstånd, specificerade priser, pristyper, betalningstyper och förarrapporterade passagerarantal.
NYC Taxi & Limousine Commission - For-Hire Vehicle (FHV) reseposter Reseposterna För uthyrningsfordon innehåller det sändande baslicensnumret och plats-ID:t för upphämtningsdatum, tid och taxizon.

Hälsa och genomik

Datamängd beskrivning
COVID-19 Data Lake COVID-19-datasjön är en samling COVID-19-relaterade datamängder från olika källor med bland annat spårningsdata om testning och patientresultat, riktlinjer för social distansering, sjukhuskapacitet, mobilitet osv.
COVID-19 Open Research Dataset En fulltext- och metadatadatauppsättning med COVID-19- och coronavirusrelaterade vetenskapliga artiklar, optimerad för maskinläsbarhet och tillgänglig för användning av den globala forskarvärlden.
Genomics Data Lake Genomics Data Lake innehåller olika offentliga datamängder som är tillgängliga kostnadsfritt och redo att integreras i arbetsflöden och program för genomikanalys. Datamängderna innehåller genomsekvenser, information om varianter samt metadata för element/urval i filformaten BAM, FASTA, VCF och CSV.

Arbete och ekonomi

Datamängd beskrivning
US Labor Force Statistics (statistik om arbetskraft i USA) US Labor Force Statistics tillhandahåller Arbetskraftsstatistik, arbetskraftsandel och den civila icke-institutionella befolkningen efter ålder, kön, ras och etniska grupper i USA.
US National Employment Hours and Earnings (arbetstimmar och inkomst i USA på nationell nivå) Programmet för arbetsmarknadsstatistik (CES) producerar detaljerade branschberäkningar om anställningar utanför jordbrukssektorn, arbetstimmar och arbetsinkomster för avlönade arbetare i USA.
US State Employment Hours and Earnings (arbetstimmar och inkomst i USA på delstatsnivå) Programmet för arbetsmarknadsstatistik (CES) producerar detaljerade branschberäkningar om anställningar utanför jordbrukssektorn, arbetstimmar och arbetsinkomster för avlönade arbetare i USA.
US Local Area Unemployment Statistics (statistik om arbetslöshet i USA på lokal nivå) De amerikanska datamängderna från LAUS-programmet (Local Area Unemployment Statistics) tillhandahåller månatliga och årliga data om sysselsättning, arbetslöshet och arbetskraft för folkräkningsregioner, delstater, huvudstad/storstad och ett flertal andra städer i USA.
US Consumer Price Index Konsumentprisindexet (CPI) mäter den genomsnittliga förändringen över tid i de priser som betalas av stadskonsumenter för en marknadskorg med konsumentvaror och tjänster.
US Producer Price Index – Bransch Producentprisindexet (PPI) mäter den genomsnittliga förändringen över tid i de försäljningspriser som inhemska producenter får för sin produktion.
US Producer Price Index – Råvaror Producentprisindex (PPI) mäter den genomsnittliga förändringen över tid i de försäljningspriser som inhemska producenter får för sina råvaror.

Befolkning och säkerhet

Datamängd beskrivning
Befolkning i USA efter delstat Amerikansk befolkning efter kön och ras för varje amerikanskt län, från 2000 och 2010 Decennial Census. Den här datamängden hämtas från United States Census Bureau.
Befolkning i USA efter postnummer Amerikansk befolkning efter kön och ras för varje amerikanskt postnummer, som kommer från 2010 Decennial Census. Den här datamängden hämtas från United States Census Bureau.
Boston Säkerhetsdata Läs data om 311-samtal som rapporterats i Boston. Den här datamängden lagras i Parquet-format och tar emot dagliga uppdateringar.
Chicago Säkerhetsdata Läs data om 311-samtal som rapporterats i Chicago. Den här datamängden lagras i Parquet-format och tar emot dagliga uppdateringar.
Säkerhetsdata för New York City Den här datamängden innehåller alla 311-tjänstbegäranden i New York City från 2010 fram till nutid. Den här datamängden lagras i Parquet-format och tar emot dagliga uppdateringar.
Säkerhetsdata för San Francisco Samtal till brandkåren om hjälp och 311-ärenden i San Francisco. Datamängden innehåller historiska poster som ackumulerats från 2015 fram till nutid.
Seattle Säkerhetsdata Larmrapporter från brandkåren i Seattle. Den här datamängden uppdateras dagligen och innehåller historiska poster som ackumulerats från 2010 fram till nutid

Kompletterande och vanliga datauppsättningar

Datamängd beskrivning
Diabetes Diabetes-datamängden innehåller 442 exempel med 10 funktioner, vilket gör den idealisk för att komma igång med Machine Learning-algoritmer.
OJ Sales Simulated Data Den här datamängden härleds från Dominicks OJ-datauppsättning och innehåller extra simulerade data, med målet att tillhandahålla en datauppsättning som gör det enkelt att samtidigt träna tusentals modeller på Azure Mašinsko učenje.
MNIST-databas med handskrivna siffror MNIST-databasen med handskrivna siffror har en träningsuppsättning med 60 000 exempel och en testuppsättning med 10 000 exempel. Siffrorna är storleksnormaliserade och centrerade i en bild med fast storlek.
Microsoft News-rekommendationsdatauppsättning Microsoft News Dataset (MIND) är en storskalig datauppsättning för nyhetsrekommendationsforskning. Det fungerar som en benchmark-datauppsättning för nyhetsrekommendationer och underlättar forskning i nyhetsrekommendationer och rekommendationssystem.
Helgdagar Information om allmänna helgdagar över hela världen från PyPI-paketet för helgdagar och Wikipedia, som omfattar 38 länder och regioner från 1970 till 2099.
Ryskt öppet tal till text Russian Open STT är ett storskaligt öppet tal till textdatauppsättning för det ryska språket