NYC Taxi & Limousine Commission - Registros de viagem do For-Hire Vehicle (FHV)
Os registos de corridas de Veículos de Aluguer (For-Hire Vehicle, “FHV”) incluem campos que registam o número de licença da central, a data e hora da recolha e o ID da localização da zona do táxi (ficheiro de forma abaixo). Estes registos são gerados a partir das submissões de Registos de Corridas de FHV realizadas pelas centrais.
Nota
A Microsoft fornece os Conjuntos de Dados Abertos do Azure "no estado em que se encontram". A Microsoft não oferece garantias, expressas ou implícitas, garantias ou condições em relação ao seu uso dos conjuntos de dados. Na medida permitida pela legislação local, a Microsoft se isenta de qualquer responsabilidade por quaisquer danos ou perdas, incluindo diretos, consequenciais, especiais, indiretos, incidentais ou punitivos, resultantes do uso dos conjuntos de dados por parte do cliente.
Este conjunto de dados é disponibilizado de acordo com os termos originais em que a Microsoft recebeu os dados de origem. O conjunto de dados pode incluir dados obtidos junto da Microsoft.
Volume e retenção
Este conjunto de dados é armazenado no formato Parquet. Existem cerca de 500 milhões de linhas (5 GB) em 2018.
Este conjunto de dados contém registos históricos acumulados de 2009 a 2018. Pode utilizar as definições de parâmetros no nosso SDK para obter os dados num intervalo de tempo específico.
Localização de armazenamento
Este conjunto de dados é armazenado na região do Azure E.U.A. Leste. A alocação de recursos de computação nos E.U.A. Leste é recomendada por questões de afinidade.
Informações adicionais
Comissão de Táxis e Limusinas (TLC) de Nova Iorque:
Os dados foram recolhidos e fornecidos à Comissão de Táxis e Limusinas (TLC) de Nova Iorque por fornecedores de tecnologia autorizados ao abrigo dos Programas Taxicab e Livery Passenger Enhancement (TPEP/LPEP). Os dados das corridas não foram criados pela TLC, a qual não assume qualquer responsabilidade pela exatidão desses dados.
Exiba o local original do conjunto de dados e os termos de uso originais.
Colunas
Name | Tipo de dados | Exclusivo | Values (sample) | Description |
---|---|---|---|---|
dispatchBaseNum | string | 1,144 | B02510 B02764 | O número de Licença de Central TLC da central que pediu a viagem |
doLocationId | string | 267 | 265 132 | Zona de Táxi da TLC onde a viagem terminou. |
dropOffDateTime | carimbo de data/hora | 57,110,352 | 2017-07-31 23:59:00 2017-10-15 00:44:34 | A data e a hora do fim da corrida. |
pickupDataHora | carimbo de data/hora | 111,270,396 | 2016-08-16 00:00:00 2016-08-17 00:00:00 | A data e a hora da recolha da viagem. |
puLocationId | string | 266 | 79 161 | Zona de Táxi da TLC onde a viagem começou. |
puMês | número inteiro | 12 | 1 12 | |
puAno | número inteiro | 5 | 2018 2017 | |
srBandeira | string | 44 | 1 2 | Indica se a viagem fazia parte de uma cadeia de viagens partilhada oferecida por uma empresa de VHF de alto volume (por exemplo, Uber Pool, Lyft Line). Para as corridas partilhadas, o valor é 1. Para as viagens não partilhadas, este campo é nulo. NOTA: Para a maioria das empresas de FHV de alto volume, apenas as viagens partilhadas que foram solicitadas E correspondidas a outro pedido de viagem partilhada ao longo da viagem são sinalizadas. Contudo, a Lyft (números de licenças base B02510 + B02844) também sinaliza viagens nas quais foram pedidas viagens partilhadas, mas em que nenhum outro passageiro correspondeu com êxito para essa partilha. Por esse motivo, os registos de corridas com SR_Flag=1 dessas duas bases poderão significar OU uma primeira viagem numa corrente de viagem partilhada OU uma corrida na qual foi pedida uma viagem partilhada, mas nunca houve correspondência para a mesma. Os utilizadores devem contar com uma contagem excessiva de viagens partilhadas bem-sucedidas realizadas pela Lyft. |
Pré-visualizar
dispatchBaseNum | pickupDataHora | dropOffDateTime | puLocationId | doLocationId | srBandeira | puAno | puMês |
---|---|---|---|---|---|---|---|
B03157 | 30/06/2019 23:59:57 | 01/07/2019 12:07:21 | 264 | nulo | nulo | 2019 | 6 |
B01667 | 30/06/2019 23:59:56 | 01/07/2019 12:28:06 | 264 | nulo | nulo | 2019 | 6 |
B02849 | 30/06/2019 23:59:55 | 01/07/2019 12:14:10 | 264 | nulo | nulo | 2019 | 6 |
B02249 | 30/06/2019 23:59:53 | 01/07/2019 12:15:53 | 264 | nulo | nulo | 2019 | 6 |
B00887 | 30/06/2019 23:59:48 | 01/07/2019 12:29:29 | 264 | nulo | nulo | 2019 | 6 |
B01626 | 30/06/2019 23:59:45 | 01/07/2019 12:18:20 | 264 | nulo | nulo | 2019 | 6 |
B01259 | 30/06/2019 23:59:44 | 01/07/2019 12:03:15 | 264 | nulo | nulo | 2019 | 6 |
B01145 | 30/06/2019 23:59:43 | 01/07/2019 12:11:15 | 264 | nulo | nulo | 2019 | 6 |
B00887 | 30/06/2019 23:59:42 | 01/07/2019 12:34:21 | 264 | nulo | nulo | 2019 | 6 |
B00821 | 30/06/2019 23:59:40 | 01/07/2019 12:02:57 | 264 | nulo | nulo | 2019 | 6 |
Acesso a dados
Azure Notebooks
# This is a package in preview.
from azureml.opendatasets import NycTlcFhv
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://video2.skills-academy.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcFhv
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcFhv
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
Próximos passos
Exiba o restante dos conjuntos de dados no catálogo Open Datasets.