Conjuntos de datos abiertos de Azure

Mejore la precisión de los modelos de aprendizaje automático con conjuntos de datos disponibles públicamente. Para ahorrar tiempo en la detección y preparación de datos, use conjuntos de datos mantenidos que están listos para proyectos de aprendizaje automático.

Transporte

Dataset Descripción
TartanAir: conjunto de datos de simulación de AirSim AirSim son datos de vehículos autónomos generados para solucionar la localización y el mapeo simultáneos (SLAM).
NYC Taxi & Limousine Commission - yellow taxi trip records Los registros de las carreras de los taxis amarillos incluyen las fechas y horas de inicio y fin, así como los lugares de inicio y fin, las distancias de las carreras, las tarifas desglosadas, los tipos de tarifa, los tipos de pago y los recuentos de pasajeros notificados por el conductor.
NYC Taxi & Limousine Commission - green taxi trip records Los registros de las carreras de los taxis verdes incluyen las fechas y horas de inicio y fin, así como los lugares de inicio y fin, las distancias de las carreras, las tarifas desglosadas, los tipos de tarifa, los tipos de pago y los recuentos de pasajeros notificados por el conductor.
NYC Taxi & Limousine Commission - For-Hire Vehicle (FHV) trip records Los registros de las carreras de vehículos de alquiler incluyen el número de licencia de la central y la fecha, la hora y el identificador de la ubicación de la parada de taxi donde se recoge a los pasajeros.

Salud y genómica

Dataset Descripción
Lago de datos de COVID-19 La colección del lago de datos de la covid-19 contiene conjuntos de datos relacionados con la covid-19 procedentes de varios orígenes y abarca información de seguimiento de resultados de pacientes y pruebas, directivas de distanciamiento social, capacidad hospitalaria, movilidad, etc.
COVID-19 Open Research Dataset Conjunto de datos de texto completo y metadatos de artículos académicos relacionados con la COVID-19, optimizados para la legibilidad automática y disponibles para su uso por parte de la comunidad de investigación global.
Lago de datos de Genomics El lago de datos de Genomics proporciona una gran variedad de conjuntos de datos públicos disponibles de forma gratuita, listos para integrarse en sus aplicaciones y flujos de trabajo de análisis genómicos. Los conjuntos de datos incluyen secuencias genómicas, información de las variantes y metadatos sobre las muestras o los sujetos con los formatos de archivo BAM, FASTA, VCF y CSV.

Mano de obra y economía

Dataset Descripción
Estadísticas de población activa de Estados Unidos US Labor Force Statistics proporciona estadísticas sobre la población activa, las tasas de participación laboral y la población no institucional por edad, sexo, raza y grupos étnicos en Estados Unidos.
Horario laboral y salarios de ámbito nacional de Estados Unidos El programa Current Employment Statistics (CES) realiza cálculos detallados sobre el empleo, el horario y los ingresos de los trabajadores en plantilla fuera del sector agrario en Estados Unidos.
Horario laboral y salarios de ámbito estatal de Estados Unidos El programa Current Employment Statistics (CES) realiza cálculos detallados sobre el empleo, el horario y los ingresos de los trabajadores en plantilla fuera del sector agrario en Estados Unidos.
Estadísticas de desempleo por áreas de Estados Unidos Los conjuntos de datos de Local Area Unemployment Statistics (LAUS) de Estados Unidos producen datos de empleo, desempleo y población activa mensual y anualmente para las regiones y divisiones censales, los estados, los condados, las áreas metropolitanas y muchas ciudades de Estados Unidos.
Índice de precios al consumo de Estados Unidos El Índice de Precios de Consumo (IPC) mide la variación media en el tiempo de los precios pagados por los consumidores urbanos por una cesta de la compra de bienes y servicios de consumo.
Índice de precios al productor de Estados Unidos: industria El Índice de Precios de Producción (IPP) mide la variación media, a lo largo del tiempo, de los precios de venta que reciben los productores nacionales por su producción.
Índice de precios al productor de Estados Unidos: productos El Índice de Precios de Producción (IPP) mide la variación media, a lo largo del tiempo, de los precios de venta que reciben los productores nacionales por sus productos básicos.

Población y seguridad

Dataset Descripción
Población de Estados Unidos por condado Población de Estados Unidos por sexo y raza en cada condado del país, según los censos decenales de 2000 y 2010. Este conjunto de datos proviene de la Oficina del Censo de los Estados Unidos.
Población de Estados Unidos por código postal Población de Estados Unidos por sexo y raza en cada código postal del país, según el censo decenal de 2010. Este conjunto de datos proviene de la Oficina del Censo de los Estados Unidos.
Datos de seguridad de Boston Lea datos sobre llamadas al número 311 en la ciudad de Boston. Este conjunto de datos se almacena en formato Parquet y recibe actualizaciones diarias.
Datos de seguridad de Chicago Lea datos sobre llamadas al número 311 en la ciudad de Chicago. Este conjunto de datos se almacena en formato Parquet y recibe actualizaciones diarias.
Datos de seguridad de Nueva York Este conjunto de datos contiene todas las solicitudes de servicio en el número 311 de la ciudad de Nueva York desde 2010 hasta la actualidad. Este conjunto de datos se almacena en formato Parquet y recibe actualizaciones diarias.
Datos de seguridad de San Francisco Llamadas de servicio a los bomberos y casos del número 311 en San Francisco. Este conjunto de datos contiene registros históricos acumulados desde 2015 hasta la actualidad.
Datos de seguridad de Seattle Servicios de los bomberos de Seattle por llamadas al 911. Este conjunto de datos se actualiza a diario y contiene registros históricos acumulados desde 2010 hasta la actualidad.

Conjuntos de datos complementarios y comunes

Dataset Descripción
Diabetes El conjunto de datos de Diabetes tiene 442 muestras con 10 características, por lo que es ideal para comenzar con algoritmos de aprendizaje automático.
Datos simulados de ventas de OJ Este conjunto de datos se deriva del conjunto de datos OJ de Dominick e incluye datos simulados adicionales, con el fin de ofrecer un conjunto de datos que facilite el entrenamiento simultáneo de miles de modelos en Azure Machine Learning.
Base de datos MNIST de dígitos manuscritos La base de datos MNIST de dígitos manuscritos tiene un conjunto de entrenamiento de 60 000 ejemplos y un conjunto de prueba de 10 000 ejemplos. Los dígitos tienen un tamaño normalizado y están centrados en una imagen de tamaño fijo.
Conjunto de datos de recomendaciones de Microsoft News MIcrosoft News Dataset (MIND) es un conjunto de datos a gran escala para la investigación de recomendaciones de noticias. Sirve como un conjunto de datos de referencia para la recomendación de noticias y facilita la investigación en el ámbito de los sistemas de recomendación y la recomendación de noticias.
Festivos nacionales Datos sobre los días festivos de todo el mundo procedentes del paquete PyPI holidays y de Wikipedia, que cubren 38 países o regiones desde 1970 hasta 2099.
Conversión de voz en texto abierta en ruso Russian Open STT es un conjunto de datos de conversión de voz en texto abierta a gran escala para el idioma ruso.