Projeto COVID Tracking

O conjunto de dados COVID Tracking Project fornece os mais recentes números relativos a testes, casos confirmados, internamentos e resultados dos pacientes provenientes de cada estado e território dos EUA.

Para obter mais informações sobre esse conjunto de dados, consulte o repositório GitHub do projeto.

Nota

A Microsoft fornece os Conjuntos de Dados Abertos do Azure "no estado em que se encontram". A Microsoft não oferece garantias, expressas ou implícitas, garantias ou condições em relação ao seu uso dos conjuntos de dados. Na medida permitida pela legislação local, a Microsoft se isenta de qualquer responsabilidade por quaisquer danos ou perdas, incluindo diretos, consequenciais, especiais, indiretos, incidentais ou punitivos, resultantes do uso dos conjuntos de dados por parte do cliente.

Este conjunto de dados é disponibilizado de acordo com os termos originais em que a Microsoft recebeu os dados de origem. O conjunto de dados pode incluir dados obtidos junto da Microsoft.

Conjuntos de Dados

As versões modificadas do conjunto de dados estão disponíveis nos formatos CSV, JSON, JSON-Lines e Parquet.

Todas as versões modificadas têm códigos de subdivisão ISO 3166 e tempos de carregamento adicionados, além de que utilizam nomes de colunas em minúsculas com separadores de caráter de sublinhado.

Dados brutos: 'https://pandemicdatalake.blob.core.windows.net/public/raw/covid-19/covid_tracking/latest/daily.json'

Versões anteriores de dados não processados e modificados: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/

https://pandemicdatalake.blob.core.windows.net/public/raw/covid-19/covid_tracking/

Volume de dados

Todos os conjuntos de dados são atualizados diariamente. Desde 13 de maio de 2020, contêm 4100 linhas (CSV 574 KB, JSON 1,8 MB, JSONL 1,8 MB, Parquet 334 KB).

Data source

Estes dados foram publicados originalmente pelo COVID Tracking Project na revista Atlantic. Os dados brutos são ingeridos do repositório GitHub de rastreamento COVID usando o arquivo states_daily_4p_et.csv. Para obter mais informações sobre esse conjunto de dados, incluindo suas origens da API do COVID Tracking Project, consulte o repositório GitHub do projeto.

Qualidade de dados

O COVID Tracking Project classifica a qualidade dos dados para cada estado e fornece mais informações sobre sua avaliação da qualidade dos dados. Para obter mais informações, consulte a página de dados do COVID Tracking Project. Os dados no repositório do GitHub podem ter um atraso de uma hora em relação à API; a utilização da API é necessária para aceder aos dados mais recentes.

Atribuição de licenças e direitos de utilização

Estes dados são licenciados sob os termos e condições da Licença Apache 2.0.

Qualquer uso dos dados deve reter todos os direitos autorais, patentes, marcas registradas e avisos de atribuição.

Contacto

Para qualquer dúvida ou feedback sobre este ou outros conjuntos de dados no COVID-19 Data Lake, entre em contato com askcovid19dl@microsoft.com.

Colunas

Name Tipo de dados Exclusivo Values (sample) Description
data data 420 2020-11-10 2021-01-30 Data na qual os totais diários foram recolhidos.
date_checked string 9,487 2020-12-01T00:00:00Z 2020-09-01T00:00:00Z Preterido
Morte smallint 7,327 2 5 Número total de pessoas que morreram devido à COVID-19 até agora.
death_increase smallint 429 1 2 Preterido
FIPS smallint 56 26 55 Código de censos FIPS do estado.
fips_code string 60 53 25 Código de censos FIPS do estado.
hash string 20,780 63df8cccd23a5476bab2d8111b138e4c9becd35e c606cd6990f16086b5382e12d84f6206172d493d Um hash para este registo
hospitalizado número inteiro 7,641 89995 4 Preterido
hospitalized_cumulative número inteiro 7,641 89995 4 Número total de pessoas que se deslocaram ao hospital por COVID-19 até agora, incluindo os que recuperaram ou morreram desde então.
hospitalized_currently smallint 3,886 8 13 Número de pessoas hospitalizadas por COVID-19 neste dia.
hospitalized_increase smallint 615 1 2 Preterido
in_icu_cumulative smallint 2,295 990 220 Número total de pessoas internadas nas UCI por COVID-19 até agora, incluindo os que recuperaram ou morreram desde então.
in_icu_currently smallint 1,643 2 8 Número total de pessoas nas UCI por COVID-19 neste dia.
iso_country string 1 E.U.A. Código ISO 3166 do país ou região
iso_subdivision string 57 US-UM EUA-WA Código ISO 3166 de subdivisão
last_update_et carimbo de data/hora 9,487 2020-12-01 00:00:00 2020-09-01 00:00:00 Última vez que os dados do dia foram atualizados
load_time carimbo de data/hora 1 2021-04-26 00:06:49.883000 Data e hora em que os dados foram carregados para o Azure a partir da origem
negativo número inteiro 10,864 305972 2140 Número total de pessoas que testaram negativo à COVID-19 até agora.
negative_increase número inteiro 7,328 6 17 Preterido
on_ventilator_cumulative smallint 677 411 412 Número total de pessoas que tiveram de ser ventiladas para tratar a COVID-19 até agora, incluindo as que recuperaram ou morreram desde então.
on_ventilator_currently smallint 837 4 10 Número de pessoas que estão ligadas a ventilador para tratar a COVID-19 neste dia.
pendente smallint 944 2 17 Número de testes cujos resultados ainda não foram determinados.
pos_neg número inteiro 18,282 2140 2 Preterido
positivo número inteiro 16,837 2 1 Número total de pessoas que testaram positivo à COVID-19 até agora.
positive_increase smallint 4,754 1 2 Preterido
recuperados número inteiro 8,286 29 19 Número total de pessoas que recuperaram da COVID-19 até agora.
state string 56 MI PA Código de duas letras do estado.
total número inteiro 18,283 2140 2 Preterido
total_test_results número inteiro 18,648 2140 3 Total de resultados de testes disponibilizados pelo estado
total_test_results_increase número inteiro 13,463 1 2 Preterido

Pré-visualizar

data state positivo hospitalized_currently hospitalized_cumulative on_ventilator_currently data_quality_grade last_update_et hash date_checked Morte hospitalizado total total_test_results pos_neg FIPS death_increase hospitalized_increase negative_increase positive_increase total_test_results_increase fips_code iso_subdivision load_time iso_country negativo in_icu_cumulative on_ventilator_cumulative recuperados in_icu_currently
2021-03-07 AK 56886 33 1293 2 nulo 05/03/2021 03:59:00 dc4bccd4bb885349d7e94d6fed058e285d4be164 05/03/2021 03:59:00 305 1293 56886 1731628 56886 2 0 0 0 0 0 2 EUA-AK 26/04/2021 12:06:49 E.U.A.
2021-03-07 AL 499819 494 45976 nulo 07/03/2021 11:00:00 997207b430824ea40b8eb8506c19a93e07bc972e 07/03/2021 11:00:00 10148 45976 2431530 2323788 2431530 1 -1 0 2087 408 2347 1 EUA-AL 26/04/2021 12:06:49 E.U.A. 1931711 2676 1515 295690
2021-03-07 AR 324818 335 14926 65 nulo 07/03/2021 12:00:00 50921aeefba3e30d31623aa495b47fb2ecc72fae 07/03/2021 12:00:00 5319 14926 2805534 2736442 2805534 5 22 11 3267 165 3380 5 EUA-RA 26/04/2021 12:06:49 E.U.A. 2480716 1533 315517 141
2021-03-07 AS 0 nulo 01/12/2020 12:00:00 96d23f888c995b9a7f3b4b864de6414f45c728ff 01/12/2020 12:00:00 0 2140 2140 2140 60 0 0 0 0 0 60 EUA-AS 26/04/2021 12:06:49 E.U.A. 2140
2021-03-07 AZ 826454 963 57907 143 nulo 07/03/2021 12:00:00 0437a7a96f4471666f775e63e86923eb5cbd8cdf 07/03/2021 12:00:00 16328 57907 3899464 7908105 3899464 4 5 44 13678 1335 45110 4 EUA-AZ 26/04/2021 12:06:49 E.U.A. 3073010 273
2021-03-07 CA 3501394 4291 nulo 07/03/2021 02:59:00 63c5c0fd2daef2fb65150e9db486de98ed3f7b72 07/03/2021 02:59:00 3501394 49646014 3501394 6 258 0 0 3816 133186 6 EUA-CA 26/04/2021 12:06:49 E.U.A. 1159
2021-03-07 CO 436602 326 23904 nulo 07/03/2021 01:59:00 444746cda3a596f183f3fa3269c8cab68704e819 07/03/2021 01:59:00 5989 23904 2636060 6415123 2636060 8 3 18 0 840 38163 8 EUA-CO 26/04/2021 12:06:49 E.U.A. 2199458
2021-03-07 CT 285330 428 12257 nulo 04/03/2021 23:59:00 bcc0f7bc8c2bf77eec31b25f8b59d510f679d3e7 04/03/2021 23:59:00 7704 12257 285330 6520366 285330 9 0 0 0 0 0 9 TC-EUA 26/04/2021 12:06:49 E.U.A.
2021-03-07 DC 41419 150 16 nulo 06/03/2021 12:00:00 a3aa0d623d538807fb9577ad64354f48cf728cc8 06/03/2021 12:00:00 1030 41419 1261363 41419 11 0 0 0 146 5726 11 EUA-DC 26/04/2021 12:06:49 E.U.A. 29570 38
2021-03-07 DE 88354 104 nulo 06/03/2021 18:00:00 059d870e689d5cc19c35f5eb398214d7d9856373 06/03/2021 18:00:00 1473 633424 1431942 633424 10 9 0 917 215 5867 10 EUA-DE 26/04/2021 12:06:49 E.U.A. 545070 13

Acesso a dados

Azure Notebooks

URLs de diferentes formatos de arquivo de conjunto de dados hospedados no Armazenamento de Blob do Azure:

CSV: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/latest/covid_tracking.csv

JSON: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/latest/covid_tracking.json

JSONL: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/latest/covid_tracking.jsonl

Parquet: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/latest/covid_tracking.parquet

Transfira o ficheiro do conjunto de dados utilizando a capacidade de transferência incorporada a partir de um URL http no Pandas. Pandas tem leitores para vários formatos de arquivo:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_parquet.html

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

import pandas as pd
import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt

df = pd.read_parquet("https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/latest/covid_tracking.parquet ")
df.head(10)

df.dtypes

df.groupby('state').first().filter(['date','positive', 'death'])

df.groupby(df.state).agg({'state': 'count','positive_increase': 'sum','death_increase': 'sum'})

df_NY=df[df['state'] == 'NY']
df_NY.plot(kind='line',x='date',y="positive",grid=True)
df_NY.plot(kind='line',x='date',y="positive_increase",grid=True)
df_NY.plot(kind='line',x='date',y="death",grid=True)
df_NY.plot(kind='line',x='date',y="death_increase",grid=True)

df_US=df.groupby(df.date).agg({'positive': 'sum','positive_increase': 'sum','death':'sum','death_increase': 'sum'}).reset_index()

df_US.plot(kind='line',x='date',y="positive",grid=True)
df_US.plot(kind='line',x='date',y="positive_increase",grid=True)
df_US.plot(kind='line',x='date',y="death",grid=True)
df_US.plot(kind='line',x='date',y="death_increase",grid=True)



Azure Databricks

Amostra não disponível para esta combinação de plataforma/pacote.

Azure Synapse

Amostra não disponível para esta combinação de plataforma/pacote.

Próximos passos

Exiba o restante dos conjuntos de dados no catálogo Open Datasets.