Exempel på Jupyter-notebook-filer som visar hur du berikar data med Öppna datauppsättningar

Jupyter-exempelanteckningsböcker för Azure Open Datasets förklarar hur du läser in öppna datauppsättningar och använder dem för att utöka demodata. Teknikerna omfattar användning av Apache Spark och Pandas för att bearbeta data.

Viktigt!

När du arbetar i en icke-Spark-miljö tillåter Open Datasets nedladdningar av endast en månads data i taget med vissa klasser, för att undvika MemoryError-problem med stora datamängder.

Läs in DATA för NOAA Integrated Surface Database (ISD)

Notebook-fil beskrivning
Läs in en månad med väderdata i en Pandas-dataram Lär dig hur du läser in historiska väderdata i din pandas-favoritdataram.
Läs in en månad med väderdata i en Spark-dataram Lär dig hur du läser in historiska väderdata i din favorit-Spark-dataram.

Koppla demodata med NOAA ISD-data

Notebook-fil beskrivning
Delta i demodata med väderdata – Pandas Gå med i en enmånads demodatauppsättning med sensorplatser med väderavläsningar i en Pandas-dataram.
Delta i demodata med väderdata – Spark Anslut en demodatauppsättning med sensorplatser med väderavläsningar i en Spark-dataram.

Ansluta NYC-taxidata med NOAA ISD-data

Notebook-fil beskrivning
Taxi trip-data berikade med väderdata – Pandas Läs in nyc-gröna taxidata (över en månad) och berika dem med väderdata i en Pandas-dataram. Det här exemplet åsidosätter metoden get_pandas_limit och balanserar databelastningsprestanda med mängden data.
Taxi trip-data berikade med väderdata – Spark Läs in nyc-gröna taxidata och utöka dem med väderdata i Spark-dataramen.

Nästa steg