NYC Taxi & Limousine Commission - registros de viagem de táxi verde

Os registos de corridas de "green taxi" incluem campos que registam as datas/horas de recolha e entrega, as localizações de recolha e entrega, as distâncias das corridas, tarifas discriminadas, tipos de taxas, tipos de pagamentos e contagens de passageiros feitas pelo motorista.

Nota

A Microsoft fornece os Conjuntos de Dados Abertos do Azure "no estado em que se encontram". A Microsoft não oferece garantias, expressas ou implícitas, garantias ou condições em relação ao seu uso dos conjuntos de dados. Na medida permitida pela legislação local, a Microsoft se isenta de qualquer responsabilidade por quaisquer danos ou perdas, incluindo diretos, consequenciais, especiais, indiretos, incidentais ou punitivos, resultantes do uso dos conjuntos de dados por parte do cliente.

Este conjunto de dados é disponibilizado de acordo com os termos originais em que a Microsoft recebeu os dados de origem. O conjunto de dados pode incluir dados obtidos junto da Microsoft.

Volume e retenção

Este conjunto de dados é armazenado no formato Parquet. Existem cerca de 80 milhões de linhas (2 GB) no total em 2018.

Este conjunto de dados contém registos históricos acumulados de 2009 a 2018. Pode utilizar as definições de parâmetros no nosso SDK para obter os dados num intervalo de tempo específico.

Localização de armazenamento

Este conjunto de dados é armazenado na região do Azure E.U.A. Leste. A alocação de recursos de computação nos E.U.A. Leste é recomendada por questões de afinidade.

Informações adicionais

Comissão de Táxis e Limusinas (TLC) de Nova Iorque:

Os dados foram recolhidos e fornecidos à Comissão de Táxis e Limusinas (TLC) de Nova Iorque por fornecedores de tecnologia autorizados ao abrigo dos Programas Taxicab e Livery Passenger Enhancement (TPEP/LPEP). Os dados das corridas não foram criados pela TLC, a qual não assume qualquer responsabilidade pela exatidão desses dados.

Exiba o local original do conjunto de dados e os termos de uso originais.

Colunas

Name Tipo de dados Exclusivo Values (sample) Description
doLocationId string 264 74 42 A Zona de Táxi da TLC DOLocationID na qual o taxímetro foi desligado.
dropoffLatitude duplo 109,721 40.7743034362793 40.77431869506836 Descontinuado desde 07 de 2016 em diante
dropoffLongitude duplo 75,502 -73.95272827148438 -73.95274353027344 Descontinuado desde 07 de 2016 em diante
extra duplo 202 0.5 1.0 Extras e outras cobranças diversas. Atualmente, só inclui a hora de ponta de 0,50 $ e de 1,00 $ e a bandeirada com a sobretaxa noturna.
fareAmount duplo 10,367 6.0 5.5 A bandeirada de hora e distância calculada pelo taxímetro.
melhoriaSobretaxa string 92 0.3 0 Sobretaxa de melhoria ambiental de 0,30 $ para corridas com clientes apanhados na rua e com bandeirada. A sobretaxa de melhoria começou a ser cobrada em 2015.
lpepDropoffDatahora carimbo de data/hora 58,100,713 2016-05-22 00:00:00 2016-05-09 00:00:00 A data e hora em que o taxímetro foi desativado.
lpepPickupDatahora carimbo de data/hora 58,157,349 2013-10-22 12:40:36 2014-08-09 15:54:25 A data e hora em que o taxímetro foi ativado.
mtaImposto duplo 34 0.5 -0.5 Taxa de 0,50 $ da Área Metropolitana que é acionada automaticamente com base na bandeirada do taxímetro que está a ser utilizada.
passengerCount número inteiro 10 1 2 O número de passageiros no veículo. Este valor é introduzido pelo motorista.
Tipo de pagamento número inteiro 5 2 1 Um código numérico que significa o modo como o passageiro pagou a viagem. 1= Cartão de crédito 2= Dinheiro 3= Sem custos 4= Disputa 5= Desconhecido 6= Viagem anulada
captaçãoLatitude duplo 95,110 40.721351623535156 40.721336364746094 Descontinuado desde 07 de 2016 em diante
captaçãoLongitude duplo 55,722 -73.84429931640625 -73.84429168701172 Descontinuado desde 07 de 2016 em diante
puLocationId string 264 74 41 A Zona de Táxi da TLC na qual o taxímetro foi ligado.
puMês número inteiro 12 3 5
puAno número inteiro 14 2015 2016
rateCodeID número inteiro 7 1 5 O código da tarifa final em vigor no final da viagem. 1= Taxa normal 2= JFK 3= Newark 4= Nassau ou Westchester 5= Tarifa negociada 6= Viagem de grupo
storeAndFwdFlag string 2 N Y Esse sinalizador indica se o registro de viagem foi mantido na memória do veículo antes de enviar ao fornecedor, também conhecido como "armazenar e encaminhar", porque o veículo não tinha uma conexão com o servidor. Y= armazenar e encaminhar viagem N= não é uma loja e viagem de encaminhamento
gorjetaMontante duplo 6,206 1.0 2.0 Montante da gorjeta - este campo é preenchido automaticamente para gorjetas pagas com cartão de crédito. Não inclui gorjetas pagas em dinheiro.
PortagensMontante duplo 2,150 5.54 5.76 Montante total de todas as portagens pagas na viagem.
totalAmount duplo 20,188 7.8 6.8 O montante total cobrado aos passageiros. Não inclui gorjetas pagas em dinheiro.
tripDistância duplo 7,060 0.9 1.0 A distância percorrida da viagem em milhas, conforme mostrada no taxímetro.
tripType número inteiro 3 1 2 Um código que indica se o cliente da corrida foi apanhado na rua ou se ligou para o serviço de táxis que é atribuído automaticamente com base na tarifa do taxímetro em uso, mas que pode ser alterada pelo motorista. 1= Rua-granizo 2= Despacho
ID do fornecedor número inteiro 2 2 1 Um código que indica o fornecedor LPEP que forneceu o registo. 1= Tecnologias Móveis Criativas, LLC; 2= VeriFone Inc.

Pré-visualizar

ID do fornecedor lpepPickupDatahora lpepDropoffDatahora passengerCount tripDistância puLocationId doLocationId rateCodeID storeAndFwdFlag Tipo de pagamento fareAmount extra mtaImposto melhoriaSobretaxa gorjetaMontante PortagensMontante totalAmount tripType puAno puMês
2 24/6/2081 17:40:37 24/6/2081 18:42:47 1 16.95 93 117 1 N 1 52 1 0.5 0.3 0 2.16 55.96 1 2081 6
2 28/11/2030 12:19:29 28/11/2030 12:25:37 1 1.08 42 247 1 N 2 6.5 0 0.5 0.3 0 0 7.3 1 2030 11
2 28/11/2030 12:14:50 28/11/2030 12:14:54 1 0.03 42 42 5 N 2 5 0 0 0 0 0 5 2 2030 11
2 14/11/2020 11:38:07 14/11/2020 11:42:22 1 0.63 129 129 1 N 2 4,5 1 0.5 0.3 0 0 6.3 1 2020 11
2 14/11/2020 09:55:36 14/11/2020 10:04:54 1 3,8 82 138 1 N 2 12.5 1 0.5 0.3 0 0 14.3 1 2020 11
2 26/08/2019 16:18:37 26/08/2019 16:19:35 1 0 264 264 1 N 2 1 0 0.5 0.3 0 0 1.8 1 2019 8
2 01/07/2019 08:28:33 01/07/2019 08:32:33 1 0.71 7 7 1 N 1 5 0 0.5 0.3 1.74 0 7.54 1 2019 7
2 01/07/2019 12:04:53 01/07/2019 12:21:56 1 2.71 223 145 1 N 2 13 0.5 0.5 0.3 0 0 14.3 1 2019 7
2 01/07/2019 12:04:11 01/07/2019 12:21:15 1 3,14 166 142 1 N 2 14,5 0.5 0.5 0.3 0 0 18.55 1 2019 7
2 01/07/2019 12:03:37 01/07/2019 12:09:27 1 0,78 74 74 1 N 1 6 0.5 0.5 0.3 1.46 0 8.76 1 2019 7

Acesso a dados

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://video2.skills-academy.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

# Display data statistic information
display(nyc_tlc_df, summary = True)

Próximos passos

Exiba o restante dos conjuntos de dados no catálogo Open Datasets.