NYC Taxi & Limousine Commission - registros amarelos de viagem de táxi
Os registos de corridas de "yellow taxi" incluem campos que registam as datas/horas de recolha e entrega, as localizações de recolha e entrega, as distâncias das corridas, tarifas discriminadas, tipos de taxas, tipos de pagamentos e contagens de passageiros feitas pelo motorista.
Nota
A Microsoft fornece os Conjuntos de Dados Abertos do Azure "no estado em que se encontram". A Microsoft não oferece garantias, expressas ou implícitas, garantias ou condições em relação ao seu uso dos conjuntos de dados. Na medida permitida pela legislação local, a Microsoft se isenta de qualquer responsabilidade por quaisquer danos ou perdas, incluindo diretos, consequenciais, especiais, indiretos, incidentais ou punitivos, resultantes do uso dos conjuntos de dados por parte do cliente.
Este conjunto de dados é disponibilizado de acordo com os termos originais em que a Microsoft recebeu os dados de origem. O conjunto de dados pode incluir dados obtidos junto da Microsoft.
Volume e retenção
Este conjunto de dados é armazenado no formato Parquet. Há cerca de 1,5 bilhões de linhas (50 GB) no total em 2018.
Este conjunto de dados contém registos históricos acumulados de 2009 a 2018. Pode utilizar as definições de parâmetros no nosso SDK para obter os dados num intervalo de tempo específico.
Localização de armazenamento
Este conjunto de dados é armazenado na região do Azure E.U.A. Leste. A alocação de recursos de computação nos E.U.A. Leste é recomendada por questões de afinidade.
Informações adicionais
Comissão de Táxis e Limusinas (TLC) de Nova Iorque:
Os dados foram recolhidos e fornecidos à Comissão de Táxis e Limusinas (TLC) de Nova Iorque por fornecedores de tecnologia autorizados ao abrigo dos Programas Taxicab e Livery Passenger Enhancement (TPEP/LPEP). Os dados das corridas não foram criados pela TLC, a qual não assume qualquer responsabilidade pela exatidão desses dados.
Exiba o local original do conjunto de dados e os termos de uso originais.
Colunas
Name | Tipo de dados | Exclusivo | Values (sample) | Description |
---|---|---|---|---|
doLocationId | string | 265 | 161 236 | A Zona de Táxi da TLC na qual o taxímetro foi desligado. |
endLat | duplo | 961,994 | 41.366138 40.75 | |
endLon | duplo | 1,144,935 | -73.137393 -73.9824 | |
extra | duplo | 877 | 0.5 1.0 | Extras e outras cobranças diversas. Atualmente, só inclui a hora de ponta de 0,50 $ e de 1,00 $ e a bandeirada com a sobretaxa noturna. |
fareAmount | duplo | 18,935 | 6.5 4.5 | A bandeirada de hora e distância calculada pelo taxímetro. |
melhoriaSobretaxa | string | 60 | 0.3 0 | Sobretaxa de melhoria ambiental de 0,30 $ para viagens com bandeirada. A sobretaxa de melhoria começou a ser cobrada em 2015. |
mtaImposto | duplo | 360 | 0.5 -0.5 | Taxa de 0,50 $ da Área Metropolitana que é acionada automaticamente com base na bandeirada do taxímetro que está a ser utilizada. |
passengerCount | número inteiro | 64 | 1 2 | O número de passageiros no veículo. Este valor é introduzido pelo motorista. |
Tipo de pagamento | string | 6,282 | CSH CRD | Um código numérico que significa o modo como o passageiro pagou a viagem. 1= Cartão de crédito; 2= Numerário; 3= Sem encargos; 4= Disputa; 5= Desconhecido; 6= Viagem anulada. |
puLocationId | string | 266 | 237 161 | A Zona de Táxi da TLC na qual o taxímetro foi ligado. |
puMês | número inteiro | 12 | 3 5 | |
puAno | número inteiro | 29 | 2012 2011 | |
rateCodeId | número inteiro | 56 | 1 2 | O código da tarifa final em vigor no final da viagem. 1= Taxa normal; 2= JFK; 3= Newark; 4= Nassau ou Westchester; 5= Tarifa negociada; 6= Passeio em grupo. |
startLat | duplo | 833,016 | 41.366138 40.7741 | |
startLon | duplo | 957,428 | -73.137393 -73.9821 | |
storeAndFwdFlag | string | 8 | N 0 | Esse sinalizador indica se o registro de viagem foi mantido na memória do veículo antes de enviar ao fornecedor, também conhecido como "armazenar e encaminhar", porque o veículo não tinha uma conexão com o servidor. Y= viagem de armazenamento e encaminhamento; N= não é uma viagem de loja e encaminhamento. |
gorjetaMontante | duplo | 12,121 | 1.0 2.0 | Este campo é preenchido automaticamente para gorjetas pagas com cartão de crédito. Não inclui gorjetas pagas em dinheiro. |
PortagensMontante | duplo | 6,634 | 5.33 4.8 | Montante total de todas as portagens pagas na viagem. |
totalAmount | duplo | 39,707 | 7.0 7.8 | O montante total cobrado aos passageiros. Não inclui gorjetas pagas em dinheiro. |
tpepDropoffDateTime | carimbo de data/hora | 290,185,010 | 2010-11-07 01:29:00 2013-11-03 01:22:00 | A data e hora em que o taxímetro foi desativado. |
tpepPickupDateTime | carimbo de data/hora | 289,948,585 | 2010-11-07 01:00:00 2009-11-01 01:05:00 | A data e hora em que o taxímetro foi ativado. |
tripDistância | duplo | 14,003 | 1.0 0.9 | A distância percorrida da viagem em milhas, conforme mostrada no taxímetro. |
ID do fornecedor | string | 7 | VTS CMT | Um código que indica o fornecedor TPEP que forneceu o registo. 1= Tecnologias Móveis Criativas, LLC; 2= VeriFone Inc. |
ID do fornecedor | número inteiro | 2 | 2 1 | Um código que indica o fornecedor LPEP que forneceu o registo. 1= Tecnologias Móveis Criativas, LLC; 2= VeriFone Inc. |
Pré-visualizar
ID do fornecedor | tpepPickupDateTime | tpepDropoffDateTime | passengerCount | tripDistância | puLocationId | doLocationId | rateCodeId | storeAndFwdFlag | Tipo de pagamento | fareAmount | extra | mtaImposto | melhoriaSobretaxa | gorjetaMontante | PortagensMontante | totalAmount | puAno | puMês |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2 | 24/01/2088 12:25:39 | 24/01/2088 07:28:25 | 1 | 4.05 | 24 | 162 | 1 | N | 2 | 14,5 | 0 | 0.5 | 0.3 | 0 | 0 | 15,3 | 2088 | 1 |
2 | 24/01/2088 12:15:42 | 24/01/2088 12:19:46 | 1 | 0.63 | 41 | 166 | 1 | N | 2 | 4,5 | 0 | 0.5 | 0.3 | 0 | 0 | 5.3 | 2088 | 1 |
2 | 04/11/2084 12:32:24 | 04/11/2084 12:47:41 | 1 | 1.34 | 238 | 236 | 1 | N | 2 | 10 | 0 | 0.5 | 0.3 | 0 | 0 | 10.8 | 2084 | 11 |
2 | 04/11/2084 12:25:53 | 04/11/2084 12:29:00 | 1 | 0.32 | 238 | 238 | 1 | N | 2 | 4 | 0 | 0.5 | 0.3 | 0 | 0 | 4.8 | 2084 | 11 |
2 | 04/11/2084 12:08:33 | 04/11/2084 12:22:24 | 1 | 1.85 | 236 | 238 | 1 | N | 2 | 10 | 0 | 0.5 | 0.3 | 0 | 0 | 10.8 | 2084 | 11 |
2 | 04/11/2084 11:41:35 | 04/11/2084 11:59:41 | 1 | 1.65 | 68 | 237 | 1 | N | 2 | 12.5 | 0 | 0.5 | 0.3 | 0 | 0 | 13.3 | 2084 | 11 |
2 | 04/11/2084 11:27:28 | 04/11/2084 11:39:52 | 1 | 1.07 | 170 | 68 | 1 | N | 2 | 9 | 0 | 0.5 | 0.3 | 0 | 0 | 9.8 | 2084 | 11 |
2 | 04/11/2084 11:19:06 | 04/11/2084 11:26:44 | 1 | 1.3 | 107 | 170 | 1 | N | 2 | 7.5 | 0 | 0.5 | 0.3 | 0 | 0 | 8.3 | 2084 | 11 |
2 | 04/11/2084 11:02:59 | 04/11/2084 11:15:51 | 1 | 1.85 | 113 | 137 | 1 | N | 2 | 10 | 0 | 0.5 | 0.3 | 0 | 0 | 10.8 | 2084 | 11 |
2 | 04/11/2084 10:46:05 | 04/11/2084 10:50:09 | 1 | 0,62 | 231 | 231 | 1 | N | 2 | 4,5 | 0 | 0.5 | 0.3 | 0 | 0 | 5.3 | 2084 | 11 |
Acesso a dados
Azure Notebooks
# This is a package in preview.
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://video2.skills-academy.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
Próximos passos
Exiba o restante dos conjuntos de dados no catálogo Open Datasets.