Exempel på Jupyter-notebook-filer som visar hur du berikar data med Öppna datauppsättningar

Artikel
09/02/2024

Jupyter-exempelanteckningsböcker för Azure Open Datasets förklarar hur du läser in öppna datauppsättningar och använder dem för att utöka demodata. Teknikerna omfattar användning av Apache Spark och Pandas för att bearbeta data.

Viktigt!

När du arbetar i en icke-Spark-miljö tillåter Open Datasets nedladdningar av endast en månads data i taget med vissa klasser, för att undvika MemoryError-problem med stora datamängder.

Läs in DATA för NOAA Integrated Surface Database (ISD)

Notebook-fil	beskrivning
Läs in en månad med väderdata i en Pandas-dataram	Lär dig hur du läser in historiska väderdata i din pandas-favoritdataram.
Läs in en månad med väderdata i en Spark-dataram	Lär dig hur du läser in historiska väderdata i din favorit-Spark-dataram.

Koppla demodata med NOAA ISD-data

Notebook-fil	beskrivning
Delta i demodata med väderdata – Pandas	Gå med i en enmånads demodatauppsättning med sensorplatser med väderavläsningar i en Pandas-dataram.
Delta i demodata med väderdata – Spark	Anslut en demodatauppsättning med sensorplatser med väderavläsningar i en Spark-dataram.

Ansluta NYC-taxidata med NOAA ISD-data

Notebook-fil	beskrivning
Taxi trip-data berikade med väderdata – Pandas	Läs in nyc-gröna taxidata (över en månad) och berika dem med väderdata i en Pandas-dataram. Det här exemplet åsidosätter metoden `get_pandas_limit` och balanserar databelastningsprestanda med mängden data.
Taxi trip-data berikade med väderdata – Spark	Läs in nyc-gröna taxidata och utöka dem med väderdata i Spark-dataramen.

Dela via

Exempel på Jupyter-notebook-filer som visar hur du berikar data med Öppna datauppsättningar

Läs in DATA för NOAA Integrated Surface Database (ISD)

Koppla demodata med NOAA ISD-data

Ansluta NYC-taxidata med NOAA ISD-data

Nästa steg

Feedback

Ytterligare resurser