Azure Open Datasets とその使用方法

Azure Open Datasets は、機械学習ソリューションにシナリオ固有の機能を追加して、より正確なモデルを作成できる、キュレーション済みのパブリック データセットです。 Open Datasets は、Microsoft Azure 上のクラウドで利用できます。 これらは Azure Machine Learning に統合されており、Azure Databricks および Machine Learning Studio (クラシック) ですぐに利用できます。 データセットには、API を介してアクセスすることもでき、これらは Power BI や Azure Data Factory などの他の製品内でも使用できます。

データセットには、機械学習モデルのトレーニングと予測ソリューションのエンリッチメントに役立つ天気、国勢調査、祝日、公共の安全、場所に関するパブリック ドメイン データが含まれます。 また、Azure Open Datasets を使用してパブリック データセットを共有することもできます。

Azure Open Datasets サービスの構成要素を示す図。

選別されて準備されたデータセット

Azure オープン データセット内の選別されたオープン パブリック データセットは、機械学習ワークフロー内で使用するために最適化されています。

使用可能なデータセットの詳細については、Azure Open Datasets カタログ リソースを参照してください。

データ サイエンティストは、多くの場合、高度な分析のためのデータのクリーニングと準備に時間の大半を費やしています。 時間を節約するために、Open Datasets が Azure クラウドにコピーされ、前処理されます。 一定の間隔で、データはソースからプルされます。たとえば、米国海洋大気庁 (NOAA) への FTP 接続によって取得されます。 次に、データは構造化された形式に解析され、必要に応じて、郵便番号や最寄りの測候所の場所などの特徴によって適宜エンリッチメントされます。

データセットは、アクセスと操作を容易にするために、Azure のクラウド コンピューティングと共同ホスティングされます。

使用可能なデータセットの例を次に示します。

気象データ

データセット ノートブック 説明
NOAA Integrated Surface Data (ISD) Azure Notebooks
Azure Databricks
北米、ヨーロッパ、オーストラリア、およびアジアの一部の空間を最適にカバーする、NOAA から 1 時間ごとに取得される世界各地の気象データ。 毎日更新されます。
NOAA Global Forecast System (GFS) Azure Notebooks
Azure Databricks
NOAA から取得される 15 日間の米国の 1 時間ごとの天気予報。 毎日更新されます。

カレンダー データ

データセット ノートブック 説明
祝日 Azure Notebooks
Azure Databricks
1970 年から 2099 年までの 41 の国または地域をカバーする、世界各地の祝日データ。 国/リージョンと、ほとんどの人が有給休暇を取得しているかどうかが含まれています。

データセットへのアクセス

Azure アカウントを使用すると、コードまたは Azure サービス インターフェイスを使用して、Open Datasets にアクセスできます。 データは、機械学習ソリューション内で使用するために Azure クラウド コンピューティング リソースと併置されます。

Open Datasets は、Azure Machine Learning UI と SDK を通じて利用できます。 Open Datasets には、Azure Machine Learning と Azure Databricks にデータを接続できる Azure Notebooks と Azure Databricks ノートブックも用意されています。 データセットには、Python SDK を通じてアクセスすることもできます。

ただし、オープン データセットにアクセスするために Azure アカウントは必要ありません。Spark の有無に関係なく、任意の Python 環境内からアクセスできます。

データセットの要求または投稿

必要なデータが見つからない場合は、データセットを要求またはデータセットを投稿します。

次のステップ