サンプル Jupyter Notebooks は、オープンデータセットを使用してデータをエンリッチする方法を示します。

この Azure Open Datasets 用の Jupyter ノートブックの例では、オープンデータセットを読み込んでデモデータのエンリッチに使用する方法を示します。データを処理するための手法として、Apache Spark と Pandas を使用します。

重要

Spark 以外の環境で作業するときは、特定のクラスについて Open Datasets でダウンロードできるデータは一度に 1 か月分のみとなります。これは、大きなデータセットに伴う MemoryError の問題を回避するためです。

NOAA Integrated Surface Database (ISD) データを読み込む

ノートブック	説明
直近 1 か月の気象データを Pandas データフレームに読み込む	過去の気象データをお気に入りの Pandas データフレームに読み込む方法について説明します。
直近 1 か月の気象データを Spark データフレームに読み込む	過去の気象データをお気に入りの Spark データフレームに読み込む方法について説明します。

ノートブック	説明
デモデータと気象データを結合する - Pandas	センサー地点の 1 か月のデモデータセットを Pandas データフレームで気象測定値と結合します。
デモデータを気象データと結合する - Spark	センサー地点のデモデータセットを Spark データフレームの気象測定値と結合します。

ノートブック	説明
気象データによってエンリッチされたタクシー乗車データ - Pandas	Pandas データフレームでニューヨーク市のグリーンタクシーデータ (1 か月分) を読み込み、気象データを使用してエンリッチします。この例は、メソッド `get_pandas_limit` をオーバーライドして、データ読み込みパフォーマンスとデータ容量のバランスを調整します。
気象データによってエンリッチされたタクシー乗車データ - Spark	Spark データフレームでニューヨーク市のグリーンタクシーデータを読み込み、気象データを使用してエンリッチします。