NYC Taxi & Limousine Komise - green taxi trip records

Záznamy o cestách zeleným taxíkem obsahují pole zachytávající data a časy vyzvednutí a vysazení, místa vyzvednutí a vysazení, ujeté vzdálenosti, jízdné rozdělené na položky, typy sazeb, typy plateb a počty cestujících nahlášené řidičem.

Poznámka:

Microsoft poskytuje datové sady Azure Open Datasets na bázi "tak, jak je". Společnost Microsoft neposkytuje žádné záruky, výslovné ani předpokládané záruky ani podmínky týkající se vašeho používání datových sad. V rozsahu povoleném vaším místním zákonem společnost Microsoft odmítá veškerou odpovědnost za případné škody nebo ztráty, včetně přímých, následných, zvláštních, nepřímých, náhodných nebo represivních, vyplývajících z vašeho používání datových sad.

Na tuto datovou sadu se vztahují původní podmínky, které Microsoft přijal se zdrojovými daty. Datová sada může obsahovat data pocházející z Microsoftu.

Objem a uchovávání

Tato datová sada se uchovává ve formátu Parquet. K roku 2018 je celkem přibližně 80M řádků (2 GB).

Tato datová sada obsahuje historické záznamy shromážděné mezi lety 2009 a 2018. Pomocí nastavení parametrů v naší sadě SDK můžete načíst data v určitém časovém rozsahu.

Dočasné úložiště

Tato datová sada se uchovává v oblasti Azure Východní USA. Kvůli přidružení se doporučuje přidělovat výpočetní prostředky v oblasti Východní USA.

Další informace

Newyorská komise pro taxi a limuzíny (TLC):

Data shromáždili a newyorské komisi pro taxi a limuzíny (TLC) je poskytli poskytovatelé technologií autorizovaní v rámci programů TPEP a LPEP (Taxicab Passenger Enhancement Program a Livery Passenger Enhancement Program). Data o jízdách nevytvořila TLC a TLC nečinní žádná prohlášení ohledně přesnosti těchto dat.

Zobrazte původní umístění datové sady a původní podmínky použití.

Sloupce

Name Datový typ Jedinečný Values (sample) Popis
doLocationId string 264 74 42 doLocationID – Taxi zóna TLC, ve které se vypnul taxametr
dropoffLatitude double 109,721 40.7743034362793 40.77431869506836 Zastaralé od verze 2016.07
dropoffLongitude double 75,502 -73.95272827148438 -73.95274353027344 Zastaralé od verze 2016.07
extra double 202 0.5 1.0 Ostatní poplatky a přirážky. V současné době to jsou pouze poplatky za jízdu v dopravní špičce a noční jízdu ve výši 0,50 USD a 1 USD.
fareAmount double 10,367 6.0 5.5 Výše jízdného vypočítaná taxametrem na základě času a vzdálenosti
zlepšení Surcharge string 92 0.3 0 Příplatek 0,30 USD za jízdu z ulice, který se účtuje při nástupu. Tento příplatek se začal vybírat v roce 2015.
lpepDropoffDatetime časové razítko 58,100,713 2016-05-22 00:00:00 2016-05-09 00:00:00 Datum a čas vypnutí taxametru
lpepPickupDatetime časové razítko 58,157,349 2013-10-22 12:40:36 2014-08-09 15:54:25 Datum a čas zapnutí taxametru
mtaTax double 34 0.5 -0.5 Daň MTA ve výši 0,50 USD, která se automaticky připočte na základě naměřené sazby
passengerCount int 10 1 2 Počet cestujících ve vozidle. Tuto hodnotu zadává řidič.
paymentType int 5 2 1 Číselný kód označující způsob, jakým cestující zaplatil za jízdu. 1 = Platební karta 2 = Hotovost 3 = Bez poplatku 4 = Spor 5 = Neznámý 6 = Neplatná cesta
pickupLatitude double 95,110 40.721351623535156 40.721336364746094 Zastaralé od verze 2016.07
pickupLongitude double 55,722 -73.84429931640625 -73.84429168701172 Zastaralé od verze 2016.07
puLocationId string 264 74 41 Taxi zóna TLC, ve které se zapnul taxametr
puMonth int 12 3 5
puYear int 14 2015 2016
rateCodeID int 7 1 5 Kód konečné sazby použité na konci jízdy. 1= Standardní sazba 2= JFK 3= Newark 4= Nassau nebo Westchester 5= Negotiated jízdné 6= Skupina jízdy
storeAndFwdFlag string 2 N Y Tento příznak označuje, zda byl záznam o jízdě uložen v paměti vozidla před odesláním dodavateli, označovaný také jako "obchod a přeposlání", protože vozidlo nemělo připojení k serveru. Y = store and forward trip N= not a store and forward trip
tipAmount double 6,206 1.0 2.0 Výše spropitného – Do tohoto pole se automaticky doplní spropitné přes platební kartu. Spropitné v hotovosti se nezahrnuje.
tollsAmount double 2,150 5.54 5.76 Celková výše zaplaceného mýtného během jízdy
totalAmount double 20,188 7.8 6.8 Celková částka účtovaná cestujícím. Nezahrnuje spropitné v hotovosti.
tripDistance double 7,060 0.9 1.0 Ujetá vzdálenost v mílích hlášená taxametrem
tripType int 3 1 2 Kód, který označuje, jestli se jednalo o jízdu z ulice nebo objednanou jízdu přes dispečink, a který se přiřazuje automaticky na základě naměřené sazby, ale který může řidič upravit. 1= Street-hail 2= Dispatch
vendorID int 2 2 1 Kód označující poskytovatele LPEP, který je autorem záznamu. 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc.

Preview

vendorID lpepPickupDatetime lpepDropoffDatetime passengerCount tripDistance puLocationId doLocationId rateCodeID storeAndFwdFlag paymentType fareAmount extra mtaTax zlepšení Surcharge tipAmount tollsAmount totalAmount tripType puYear puMonth
2 24.6.2081 5:40:37 24.6.2081 18:42:47 0 16.95 93 117 0 N 0 52 0 0.5 0.3 0 2.16 55.96 0 2081 6
2 28.11.2030 12:19:29 11/28/2030 12:25:37 0 1.08 42 247 0 N 2 6.5 0 0.5 0.3 0 0 7.3 0 2030 11
2 28.11.2030 12:14:50 28.11.2030 12:14:54 0 0.03 42 42 5 N 2 5 0 0 0 0 0 5 2 2030 11
2 11.14.2020 11:38:07 11.14.2020 11:42:22 0 0.63 129 129 0 N 2 4.5 0 0.5 0.3 0 0 6.3 0 2020 11
2 11.14.2020 9:55:36 11.14.2020 10:04:54 0 3.8 82 138 0 N 2 12.5 0 0.5 0.3 0 0 14.3 0 2020 11
2 26.8.2019 18:18:37 26.8.2019 19:19:35 0 0 264 264 0 N 2 0 0 0.5 0.3 0 0 1.8 0 2019 8
2 1.7.2019 8:28:33 1.7.2019 8:32:33 0 0.71 7 7 0 N 1 5 0 0.5 0.3 1.74 0 7.54 0 2019 7
2 1.7.2019 12:04:53 1.7.2019 12:21:56 0 2.71 223 145 0 N 2 13 0.5 0.5 0.3 0 0 14.3 0 2019 7
2 1.7.2019 12:04:11 1.7.2019 12:21:15 0 3,14 166 142 0 N 2 14.5 0.5 0.5 0.3 0 0 18.55 0 2019 7
2 1.7.2019 12:03:37 1.7.2019 12:09:27 0 0.78 74 74 0 N 1 6 0.5 0.5 0.3 1,46 0 8.76 0 2019 7

Přístup k datům

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://video2.skills-academy.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

# Display data statistic information
display(nyc_tlc_df, summary = True)

Další kroky

Prohlédněte si zbývající datové sady v katalogu Open Datasets.