NYC Taxi & Limousine Commission - Registros de viagem do For-Hire Vehicle (FHV)

Os registos de corridas de Veículos de Aluguer (For-Hire Vehicle, “FHV”) incluem campos que registam o número de licença da central, a data e hora da recolha e o ID da localização da zona do táxi (ficheiro de forma abaixo). Estes registos são gerados a partir das submissões de Registos de Corridas de FHV realizadas pelas centrais.

Nota

A Microsoft fornece os Conjuntos de Dados Abertos do Azure "no estado em que se encontram". A Microsoft não oferece garantias, expressas ou implícitas, garantias ou condições em relação ao seu uso dos conjuntos de dados. Na medida permitida pela legislação local, a Microsoft se isenta de qualquer responsabilidade por quaisquer danos ou perdas, incluindo diretos, consequenciais, especiais, indiretos, incidentais ou punitivos, resultantes do uso dos conjuntos de dados por parte do cliente.

Este conjunto de dados é disponibilizado de acordo com os termos originais em que a Microsoft recebeu os dados de origem. O conjunto de dados pode incluir dados obtidos junto da Microsoft.

Volume e retenção

Este conjunto de dados é armazenado no formato Parquet. Existem cerca de 500 milhões de linhas (5 GB) em 2018.

Este conjunto de dados contém registos históricos acumulados de 2009 a 2018. Pode utilizar as definições de parâmetros no nosso SDK para obter os dados num intervalo de tempo específico.

Localização de armazenamento

Este conjunto de dados é armazenado na região do Azure E.U.A. Leste. A alocação de recursos de computação nos E.U.A. Leste é recomendada por questões de afinidade.

Informações adicionais

Comissão de Táxis e Limusinas (TLC) de Nova Iorque:

Os dados foram recolhidos e fornecidos à Comissão de Táxis e Limusinas (TLC) de Nova Iorque por fornecedores de tecnologia autorizados ao abrigo dos Programas Taxicab e Livery Passenger Enhancement (TPEP/LPEP). Os dados das corridas não foram criados pela TLC, a qual não assume qualquer responsabilidade pela exatidão desses dados.

Exiba o local original do conjunto de dados e os termos de uso originais.

Colunas

Name Tipo de dados Exclusivo Values (sample) Description
dispatchBaseNum string 1,144 B02510 B02764 O número de Licença de Central TLC da central que pediu a viagem
doLocationId string 267 265 132 Zona de Táxi da TLC onde a viagem terminou.
dropOffDateTime carimbo de data/hora 57,110,352 2017-07-31 23:59:00 2017-10-15 00:44:34 A data e a hora do fim da corrida.
pickupDataHora carimbo de data/hora 111,270,396 2016-08-16 00:00:00 2016-08-17 00:00:00 A data e a hora da recolha da viagem.
puLocationId string 266 79 161 Zona de Táxi da TLC onde a viagem começou.
puMês número inteiro 12 1 12
puAno número inteiro 5 2018 2017
srBandeira string 44 1 2 Indica se a viagem fazia parte de uma cadeia de viagens partilhada oferecida por uma empresa de VHF de alto volume (por exemplo, Uber Pool, Lyft Line). Para as corridas partilhadas, o valor é 1. Para as viagens não partilhadas, este campo é nulo. NOTA: Para a maioria das empresas de FHV de alto volume, apenas as viagens partilhadas que foram solicitadas E correspondidas a outro pedido de viagem partilhada ao longo da viagem são sinalizadas. Contudo, a Lyft (números de licenças base B02510 + B02844) também sinaliza viagens nas quais foram pedidas viagens partilhadas, mas em que nenhum outro passageiro correspondeu com êxito para essa partilha. Por esse motivo, os registos de corridas com SR_Flag=1 dessas duas bases poderão significar OU uma primeira viagem numa corrente de viagem partilhada OU uma corrida na qual foi pedida uma viagem partilhada, mas nunca houve correspondência para a mesma. Os utilizadores devem contar com uma contagem excessiva de viagens partilhadas bem-sucedidas realizadas pela Lyft.

Pré-visualizar

dispatchBaseNum pickupDataHora dropOffDateTime puLocationId doLocationId srBandeira puAno puMês
B03157 30/06/2019 23:59:57 01/07/2019 12:07:21 264 nulo nulo 2019 6
B01667 30/06/2019 23:59:56 01/07/2019 12:28:06 264 nulo nulo 2019 6
B02849 30/06/2019 23:59:55 01/07/2019 12:14:10 264 nulo nulo 2019 6
B02249 30/06/2019 23:59:53 01/07/2019 12:15:53 264 nulo nulo 2019 6
B00887 30/06/2019 23:59:48 01/07/2019 12:29:29 264 nulo nulo 2019 6
B01626 30/06/2019 23:59:45 01/07/2019 12:18:20 264 nulo nulo 2019 6
B01259 30/06/2019 23:59:44 01/07/2019 12:03:15 264 nulo nulo 2019 6
B01145 30/06/2019 23:59:43 01/07/2019 12:11:15 264 nulo nulo 2019 6
B00887 30/06/2019 23:59:42 01/07/2019 12:34:21 264 nulo nulo 2019 6
B00821 30/06/2019 23:59:40 01/07/2019 12:02:57 264 nulo nulo 2019 6

Acesso a dados

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://video2.skills-academy.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

Próximos passos

Exiba o restante dos conjuntos de dados no catálogo Open Datasets.