Exempel på Jupyter-notebook-filer som visar hur du berikar data med Öppna datauppsättningar
Jupyter-exempelanteckningsböcker för Azure Open Datasets förklarar hur du läser in öppna datauppsättningar och använder dem för att utöka demodata. Teknikerna omfattar användning av Apache Spark och Pandas för att bearbeta data.
Viktigt!
När du arbetar i en icke-Spark-miljö tillåter Open Datasets nedladdningar av endast en månads data i taget med vissa klasser, för att undvika MemoryError-problem med stora datamängder.
Läs in DATA för NOAA Integrated Surface Database (ISD)
Notebook-fil | beskrivning |
---|---|
Läs in en månad med väderdata i en Pandas-dataram | Lär dig hur du läser in historiska väderdata i din pandas-favoritdataram. |
Läs in en månad med väderdata i en Spark-dataram | Lär dig hur du läser in historiska väderdata i din favorit-Spark-dataram. |
Koppla demodata med NOAA ISD-data
Notebook-fil | beskrivning |
---|---|
Delta i demodata med väderdata – Pandas | Gå med i en enmånads demodatauppsättning med sensorplatser med väderavläsningar i en Pandas-dataram. |
Delta i demodata med väderdata – Spark | Anslut en demodatauppsättning med sensorplatser med väderavläsningar i en Spark-dataram. |
Ansluta NYC-taxidata med NOAA ISD-data
Notebook-fil | beskrivning |
---|---|
Taxi trip-data berikade med väderdata – Pandas | Läs in nyc-gröna taxidata (över en månad) och berika dem med väderdata i en Pandas-dataram. Det här exemplet åsidosätter metoden get_pandas_limit och balanserar databelastningsprestanda med mängden data. |
Taxi trip-data berikade med väderdata – Spark | Läs in nyc-gröna taxidata och utöka dem med väderdata i Spark-dataramen. |