Comissão de Táxis e Limusines de Nova York – registros de corridas de táxis amarelos

Os registros de viagem de táxi amarelo incluem campos que capturam as datas/horas de partida e chegada, os locais de partida e chegada, as distâncias, as tarifas discriminadas, os tipos de taxa, os tipos de pagamento e as contagens de passageiro relatadas pelo motorista.

Observação

A Microsoft fornece o Azure Open Datasets no estado em que se encontra. A Microsoft não oferece garantias nem coberturas, expressas ou implícitas, em relação ao uso dos conjuntos de dados. Até o limite permitido pela legislação local, a Microsoft se exime de toda a obrigação por danos ou perdas, inclusive diretos, consequentes, especiais, indiretos, acidentais ou punitivos, resultantes do uso dos conjuntos de dados.

Esse conjunto de dados é fornecido de acordo com os termos originais com que a Microsoft recebeu os dados de origem. O conjunto de dados pode incluir dados originados da Microsoft.

Volume e retenção

Este conjunto de dados está armazenado no formato Parquet. Há cerca de 1,5 bilhão de linhas (50 GB) no total desde 2018.

Este conjunto de dados contém registros históricos acumulados de 2009 a 2018. Você pode usar as configurações de parâmetro no nosso SDK para buscar dados em um intervalo de tempo específico.

Local de armazenamento

Este conjunto de dados está armazenado na região Leste dos EUA do Azure. É recomendável alocar recursos de computação no Leste dos EUA para afinidade.

Informações adicionais

TLC (Comissão de Táxis e Limusines) de Nova York:

Os dados foram coletados e fornecidos à TLC (Comissão de Táxis e Limusines) de Nova York por provedores de tecnologia autorizados nos TPEP/LPEP (Programas de Melhoria de Táxi e Locação para Passageiros). Os dados de viagem não foram criados pela TLC. A TLC não fornece qualquer garantia quanto à precisão desses dados.

Veja o local original do conjuntos de dados e os termos de uso originais.

Colunas

Nome Tipo de dados Exclusivo Valores (exemplo) Descrição
doLocationId string 265 161 236 Zona de Táxi da TLC em que o taxímetro foi desativado.
endLat double 961,994 41.366138 40.75
endLon double 1,144,935 -73.137393 -73.9824
extra double 877 0.5 1.0 Extras e taxas adicionais diversas. No momento, inclui somente as cobranças de US$ 0,50 e US$ 1,00 na hora do rush e pernoite.
fareAmount double 18,935 6.5 4.5 A taxa de tempo e distância calculada pelo medidor.
improvementSurcharge string 60 0.3 0 Taxa adicional de melhoria de US$ 0,30 avaliada em viagens na troca de bandeira. A taxa adicional de melhoria começou a ser cobrada em 2015.
mtaTax double 360 0.5 -0.5 Taxa de MTA de US$ 0,50 automaticamente acionada com base na taxa medida em uso.
passengerCount INT 64 1 2 O número de passageiros no veículo. Este é um valor inserido pelo condutor.
paymentType string 6\.282 CSH CRD Um código numérico que indica como o passageiro pagou pela viagem. 1= Cartão de crédito, 2= Em dinheiro, 3= Sem cobrança, 4= Disputa, 5= Desconhecido, 6= Viagem anulada.
puLocationId string 266 237 161 Zona de Táxi da TLC em que o taxímetro foi ativado.
puMonth INT 12 3 5
puYear INT 29 2012 2011
rateCodeId INT 56 1 2 O código da taxa final em vigor ao final da viagem. 1 = Taxa padrão, 2 = JFK, 3 = Newark, 4 = Nassau ou Westchester, 5 = Valor negociado, 6 = Corrida de grupo.
startLat double 833,016 41.366138 40.7741
startLon double 957,428 -73.137393 -73.9821
storeAndFwdFlag string 8 N 0 Esse sinalizador indica se o registro da corrida foi mantido na memória do veículo antes de ser enviado ao fornecedor, também conhecido como "armazenar e encaminhar", porque o veículo não tinha uma conexão com o servidor. Y = armazenar e encaminhar corrida, N = não armazenar e encaminhar corrida.
tipAmount double 12,121 1.0 2.0 Este campo é preenchido automaticamente com as gorjetas de cartão de crédito. Gorjetas em dinheiro não são incluídas.
tollsAmount double 6,634 5.33 4.8 Valor total de todos os pedágios pagos na viagem.
totalAmount double 39,707 7.0 7.8 O valor total cobrado aos passageiros. Não inclui gorjetas em dinheiro.
tpepDropoffDateTime timestamp 290,185,010 2010-11-07 01:29:00 2013-11-03 01:22:00 Data e hora em que o medidor foi desativado.
tpepPickupDateTime timestamp 289,948,585 2010-11-07 01:00:00 2009-11-01 01:05:00 Data e hora em que o medidor foi ativado.
tripDistance double 14,003 1.0 0.9 A distância percorrida na viagem em milhas, informada pelo taxímetro.
vendorID string 7 VTS CMT Código que indica o provedor de TPEP que forneceu o registro. 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc.
vendorID INT 2 2 1 Um código que indica o provedor de LPEP que forneceu o registro. 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc.

Versão Prévia

vendorID tpepPickupDateTime tpepDropoffDateTime passengerCount tripDistance puLocationId doLocationId rateCodeId storeAndFwdFlag paymentType fareAmount extra mtaTax improvementSurcharge tipAmount tollsAmount totalAmount puYear puMonth
2 1/24/2088 12:25:39 AM 1/24/2088 7:28:25 AM 1 4.05 24 162 1 N 2 14,5 0 0,5 0.3 0 0 15.3 2088 1
2 1/24/2088 12:15:42 AM 1/24/2088 12:19:46 AM 1 0.63 41 166 1 N 2 4.5 0 0,5 0.3 0 0 5,3 2088 1
2 11/4/2084 12:32:24 PM 11/4/2084 12:47:41 PM 1 1.34 238 236 1 N 2 10 0 0,5 0.3 0 0 10,8 2084 11
2 11/4/2084 12:25:53 PM 11/4/2084 12:29:00 PM 1 0,32 238 238 1 N 2 4 0 0,5 0.3 0 0 4.8 2084 11
2 11/4/2084 12:08:33 PM 11/4/2084 12:22:24 PM 1 1.85 236 238 1 N 2 10 0 0,5 0.3 0 0 10,8 2084 11
2 11/4/2084 11:41:35 AM 11/4/2084 11:59:41 AM 1 1.65 68 237 1 N 2 12.5 0 0,5 0.3 0 0 13.3 2084 11
2 11/4/2084 11:27:28 AM 11/4/2084 11:39:52 AM 1 1.07 170 68 1 N 2 9 0 0,5 0.3 0 0 9.8 2084 11
2 11/4/2084 11:19:06 AM 11/4/2084 11:26:44 AM 1 1,3 107 170 1 N 2 7.5 0 0,5 0.3 0 0 8.3 2084 11
2 11/4/2084 11:02:59 AM 11/4/2084 11:15:51 AM 1 1.85 113 137 1 N 2 10 0 0,5 0.3 0 0 10,8 2084 11
2 11/4/2084 10:46:05 AM 11/4/2084 10:50:09 AM 1 0.62 231 231 1 N 2 4.5 0 0,5 0.3 0 0 5,3 2084 11

Acesso de dados

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://video2.skills-academy.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser

end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

Próximas etapas

Exiba o restante dos conjuntos de dados no catálogo do Open Datasets.