opendatasets パッケージ

Azure Open Datasets をデータフレームとして使用し、顧客データをエンリッチするための機能が含まれています。

Azure オープン データセットは選別されたパブリック データセットであり、機械学習ソリューションにシナリオ固有の機能を追加してモデルの精度を上げるために使用できます。 これらのパブリック データセットは、フィルターが適用された Spark と pandas のデータフレームに変換できます。 一部のデータセットでは、エンリッチャーを使用して、データをパブリック データに結合できます。 たとえば、経度と緯度または郵便番号と時刻を使用して、データを気象データと結合できます。

Azure Open Datasets には、機械学習モデルのトレーニングと予測ソリューションのエンリッチメントに役立つ、天気、国勢調査、祝日、公共の安全、場所に関するパブリック ドメイン データが含まれています。 オープン データセットは Microsoft Azure のクラウドにあり、Azure Machine Learning に統合されています。 Azure Open Datasets の操作の詳細については、Azure Open Datasets を使用したデータセットの作成に関する記事をご覧ください。

Azure Open Datasets に関する全般的な情報については、Azure Open Datasets のドキュメントをご覧ください。

パッケージ

accessories

緯度と経度、郵便番号、時刻など、データ内の列の型を識別するのに役立つ機能が含まれます。

aggregators

結合されたデータの集計方法を定義するための機能が含まれています。

アグリゲーターは、2 つのデータセットのデータを結合した結果に対して実行できる操作を定義します。 たとえば、enrichers のいずれかのクラスを使用する場合は、操作の一部としてアグリゲーターを指定できます。 集計が不要な場合は、AggregatorAll を使用します。

data

publicholidays モジュールのデータ リソースの初期化ファイルが含まれています。

dataaccess

BLOB ファイルのアクセス メソッドを提供する機能が含まれています。

ChicagoSafety クラスのように opendatasets パッケージからのクラスを使用する場合、このパッケージ内のデータアクセス クラスと関数が内部で使用されます。 一般的に、この機能は、データアクセス パッケージで直接使用する必要はありません。

enrichers

2 つのデータセットのデータをエンリッチおよび結合するための機能が含まれています。

一般に、エンリッチャーは、さまざまなソースからのデータを結合します。 具体的には、エンリッチャーを使用すると、Azure Open Datasets や他のパブリック データセットのデータを使用してデータ (顧客データ) を結合できます。

granularities

エンリッチャーによって使用される時間と距離の単位を定義する機能が含まれています。

細分性は、データをエンリッチ (結合) するときに enrichers によって使用される時間または距離の単位です。 時間単位や日単位といった時間の細分性や、最短距離などの場所の細分性があります。

selectors

パブリック データセットのデータを使用して、顧客データセットのデータを選択して結合するための機能が含まれています。

セレクターは、時間と距離の単位に基づいてパブリック データセットを使用してデータをエンリッチできるようにするロジックを定義します。 たとえばセレクターを使用すると、自分のデータと結合するパブリック データを、最も近い場所に基づいて、または同じ時間の細分性に丸めることで見つけることができます。

enrichers パッケージ内のいずれかのクラスを使用する場合は、セレクターを指定します。

モジュール

environ

Azure Open Datasets が使用される実行時環境クラスを定義します。

このモジュールのクラスは、Azure Open Datasets の機能がさまざまな環境向けに最適化されることを保証します。 通常は、これらの環境クラスのインスタンスを作成する必要はなく、それらのクラスの実装について心配する必要もありません。 代わりに、get_environ モジュール関数を使用して環境を返します。

クラス

BingCOVID19Data

Bing COVID-19 データセットを表します。

このデータセットには、世界保健機関 (WHO)、アメリカ疾病予防管理センター (CDC)、国家および州の公的医療部門、BNO News、24/7 Wall St.、Wikipedia など、複数の信頼できるソースから得た Bing COVID-19 データが含まれます。 列の説明、データセットにアクセスするためのさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの「Bing COVID-19 Data」を参照してください。

フィルター 処理フィールドを初期化します。

BostonSafety

Boston Safety パブリック データセットを表します。

このデータセットには、ボストン市に報告された 311 コールが含まれています。 列の説明、データセットにアクセスするためのさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの「Boston Safety Data」を参照してください。

フィルター 処理フィールドを初期化します。

COVID19OpenResearch

COVID-19 Open Research Dataset を表します。

列の説明、データセットにアクセスするためのさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの「COVID-19 のオープン リサーチ データセット」を参照してください。

COVIDTrackingProject

COVID Tracking Project データセットを表します。

このデータセットには、米国のすべての州と準州からの最新の検査数、感染者数、入院患者数、患者のアウトカムを提供する COVID Tracking Project データセットが含まれています。 列の説明、データセットにアクセスするためのさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの「COVID Tracking Project データセット」を参照してください。

フィルター 処理フィールドを初期化します。

ChicagoSafety

Chicago Safety パブリック データセットを表します。

このデータセットには、公衆衛生規則に関連する過去の苦情、道路の穴の報告、街灯の問題など、シカゴ市の 311 サービス要求が含まれます。 列の説明、データセットにアクセスするためのさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの「Chicago Safety Data」を参照してください。

フィルター 処理フィールドを初期化します。

CitySafety

CitySafety クラス - これは個々の都市によって継承できる親クラスです。

フィルター 処理フィールドを初期化します。

Diabetes

Sample Diabetes パブリック データセットを表します。

Diabetes データセットには、442 のサンプルと 10 個の機能が含まれ、機械学習アルゴリズムの使用をすぐに試すことができます。 列の説明、データセットにアクセスするためのさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの「Sample: Diabetes」を参照してください。

EcdcCOVIDCases

欧州疾病予防管理センター (ECDC) の Covid-19 のケースを表します。

このデータセットに含まれているのは、欧州疾病予防管理センター (ECDC) から得られたデータです。 各行またはエントリには、日あたり、国または地域あたりの新規感染者数が含まれています。 列の説明、データセットにアクセスするためのさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの「欧州疾病予防管理センター (ECDC) の Covid-19 の症例」を参照してください。

フィルター 処理フィールドを初期化します。

MNIST

手書き数字の MNIST データセットを表します。

手書き数字の MNIST データベースには、60,000 件の例が含まれたトレーニング セットと、10,000 件の例が含まれたテスト セットがあります。 数字は、サイズが正規化され、固定サイズの画像に中心が揃えられています。 列の説明、データセットにアクセスするためのさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの「手書き数字の MNIST データセット」を参照してください。

MNIST データセットの使用例については、Azure Machine Learning で MNIST データと scikit-learn を使用して画像の分類モデルをトレーニングするチュートリアル ページを参照してください。

NoParameterOpenDatasetBase

米国の労働者の基本クラス。

Initialize。

NoaaGfsWeather

米国海洋大気庁 (NOAA) の全球予報システム (GFS) データセットを表します。

このデータセットには、米国海洋大気庁 (NOAA) の全球予報システム (GFS) によって生成された、米国の 15 日間の 1 時間ごとの気象予報データ (例: 温度、降水量、風) が含まれています。 列の説明、データセットにアクセスするためのさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの「NOAA 全球予報システム」を参照してください。

フィルター 処理フィールドを初期化します。

NoaaIsdWeather

米国海洋大気庁 (NOAA) の Integrated Surface Dataset (ISD) を表します。

このデータセットには、米国海洋大気庁 (NOAA) から提供される、世界の 1 時間ごとの過去の気象データ (例: 温度、降水量、風) が含まれます。 列の説明、データセットにアクセスするためのさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの「NOAA Integrated Surface Data」を参照してください。

フィルター 処理フィールドを初期化します。

NycSafety

New York City Safety パブリック データセットを表します。

このデータセットには、2010 年から現在までのすべてのニューヨーク市の 311 サービス要求が含まれています。 列の説明、データセットにアクセスするためのさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの「New York City Safety Data」を参照してください。

フィルター 処理フィールドを初期化します。

NycTaxiBase

ニューヨーク タクシー クラス - これは、継承できる親クラスです。

フィルター 処理フィールドを初期化します。

NycTlcFhv

NYC タクシー & リムジン 委員会のパブリック データセットを表します。

このデータセットには、ハイヤー (FHV) の運行記録が含まれています。その内容には、配車側のベース ライセンス番号、乗車の日時、タクシー ゾーンの場所 ID (下記のシェープ ファイル) が入力されたフィールドがあります。 これらの記録は、ベースによって提出された FHV 乗車記録から生成されます。 列の説明、データセットにアクセスするさまざまな方法、例など、このデータセットの詳細については、「Microsoft Azure Open Datasets カタログの NYC タクシー & リムジン委員会 - For-Hire Vehicle (FHV) 乗車レコード」 を参照してください。

フィルター 処理フィールドを初期化します。

NycTlcGreen

NYC タクシー & リムジン委員会グリーン タクシー乗車パブリック データセットを表します。

グリーン タクシー乗車記録には、乗車と降車の日時、乗車と降車の場所、移動距離、料金明細、料金の種類、支払いの種類、運転手から報告された乗車人数が入力されたフィールドが含まれています。 列の説明、データセットにアクセスするさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの NYC タクシー & リムジン委員会 - グリーン タクシー乗車レコード に関するページを参照してください。

NycTlcGreen クラスの使用例については、自動機械学習を使用してタクシー料金を予測するチュートリアルを参照してください。

フィルター 処理フィールドを初期化します。

NycTlcYellow

NYC タクシー & リムジン委員会の黄色のタクシー乗車パブリック データセットを表します。

イエロー タクシー乗車記録には、乗車と降車の日時、乗車と降車の場所、移動距離、料金明細、料金の種類、支払いの種類、運転手から報告された乗車人数が入力されたフィールドが含まれています。 列の説明、データセットにアクセスするさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの NYC タクシー & リムジン委員会 - 黄色のタクシー乗車レコード に関するページを参照してください。

フィルター 処理フィールドを初期化します。

OjSalesSimulated

シミュレートされたオレンジ ジュースの売上データ サンプルのデータセットを表します。

列の説明、データセットにアクセスするためのさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの「サンプル: OJ Sales Simulated Data」を参照してください。

PublicHolidays

祝日のパブリック データセットを表します。

このデータセットには、PyPI holidays パッケージと Wikipedia をソースとする世界の祝日データが含まれており、1970 年から 2099 年まで、38 の国または地域を対象としています。 各行は、特定の日付、国または地域、ほとんどの人が有給休暇かどうかに関する祝日情報を示しています。 列の説明、データセットにアクセスするためのさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの「Public Holidays」を参照してください。

フィルター フィールドを初期化します。

PublicHolidaysOffline

祝日のオフライン パブリック データセットを表します。

行の詳細については、Microsoft Azure Open Datasets カタログの「祝日」を参照してください。

フィルター フィールドを初期化します。

SampleDatasetBase

サンプル データセット基底クラスを表します。

SanFranciscoSafety

San Francisco Safety パブリック データセットを表します。

このデータセットには、サンフランシスコの消防局への出動要請と 311 ケースが含まれています。 列の説明、データセットにアクセスするためのさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの「San Francisco Safety Data」を参照してください。

フィルター フィールドを初期化します。

SeattleSafety

シアトルの安全に関するパブリック データセットを表します。

このデータセットには、シアトル消防局への 911 による出動要請データが含まれています。 列の説明、データセットにアクセスするためのさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログのシアトルの安全に関するデータの記事をご覧ください。

フィルター フィールドを初期化します。

UsLaborCPI

米国消費者物価指数のパブリック データセットを表します。

消費者物価指数 (CPI) は、都市の消費者が商品やサービスを実際に購入する際に支払う価格の経時的な平均的変動を測定するものです。 列の説明、データセットにアクセスするためのさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの「米国消費者物価指数」を参照してください。

Initialize。

UsLaborEHENational

全米労働時間および賃金のパブリック データセットを表します。

このデータセットには、北米の非農業部門雇用者数、労働時間、および労働者の賃金に関する業界推定値が含まれています。 列の説明、データセットにアクセスするためのさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの「全米労働時間および賃金」を参照してください。

Initialize。

UsLaborEHEState

米国州の労働時間と賃金のパブリック データセットを表します。

このデータセットには、米国内の非農業部門雇用者数、労働時間、労働者の賃金に関する業界推定値が含まれています。 列の説明、データセットにアクセスするためのさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの米国州の労働時間および賃金に関する記事をご覧ください。

Initialize。

UsLaborLAUS

US Local Area Unemployment Statistics (米国地域別失業統計) のパブリック データセットを表します。

このデータセットには、米国の国勢調査地域/区分、州、郡、大都市圏、および多数の都市の雇用、失業、労働力に関する月次および年次データが含まれています。 列の説明、データセットにアクセスするためのさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの「US Local Area Unemployment Statistics (米国地域別失業統計)」を参照してください。

Initialize。

UsLaborLFS

米国労働力統計のパブリック データセットを表します。

このデータセットには、米国の労働力に関するデータが含まれています。その内容には、労働参加率や、年齢、性別、人種、民族グループ別の労働力人口があります。 列の説明、データセットにアクセスするさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの「米国労働力統計」を参照してください。

Initialize。

UsLaborPPICommodity

米国生産者物価指数 (PPI) の商品パブリック データセットを表します。

生産者物価指数 (PPI) は、国内生産者がその生産物に対して得た販売価格の経時的な平均的変動を測定するものです。 PPI に含まれる価格は、対象となる製品およびサービスの最初の商取引時点での価格です。 このデータセットには、毎月リリースされる個々の製品と製品グループの PPI が含まれています。 列の説明、データセットにアクセスするためのさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの「米国生産者物価指数 - 商品」を参照してください。

Initialize。

UsLaborPPIIndustry

米国生産者物価指数 (PPI) の業界パブリック データセットを表します。

生産者物価指数 (PPI) は、国内生産者がその生産物に対して得た販売価格の経時的な平均的変動を測定するものです。 PPI に含まれる価格は、対象となる製品およびサービスの最初の商取引時点での価格です。 このデータセットには、米国経済の幅広い業種の PPI が含まれています。 列の説明、データセットにアクセスするためのさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの「米国生産者物価指数 - 業種」を参照してください。

Azure Open Datasets に関する全般的な情報は、Azure Open Datasets のドキュメントを参照してください。

Initialize。

UsPopulationCounty

郡別パブリック データセットによる米国の人口を表します。

このデータセットには、2000 年と 2010 年に実施された 10 年ごとの国勢調査から取り込んだ米国の各郡の性別および人種別の米国人口が含まれています。 列の説明、データセットにアクセスするためのさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの「米国の郡別人口」を参照してください。

Initialize。

UsPopulationZip

郵便番号パブリック データセットによる米国の人口を表します。

このデータセットには、2010 年に実施された 10 年ごとの国勢調査から取り込んだ米国の郵便番号による性別および人種別の米国人口が含まれています。 列の説明、データセットにアクセスするためのさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの「米国の郵便番号別人口」を参照してください。

Initialize。