サンプル データセット
Azure Databricks ワークスペースで使用できるさまざまなデータセットが、Azure Databricks およびサード パーティによって提供されています。
Unity Catalog データセット
Unity Catalog では、samples
カタログ内の多数のサンプル データセットにアクセスできます。 これらのデータセットは、Catalog Explorer の UI で確認し、ノートブック または SQL エディター で、<catalog-name>.<schema-name>.<table-name>
パターンを使用して直接参照できます。
nyctaxi
スキーマ (データベースとも呼ばれます) には、ニューヨーク市のタクシー乗車に関する詳細を含むテーブル trips
が含まれています。 次のステートメントを使用すると、このテーブルの最初の 10 個のレコードが返されます。
SELECT * FROM samples.nyctaxi.trips LIMIT 10
tpch
スキーマには、TPC-H ベンチマークのデータが含まれています。 このスキーマのテーブルを一覧表示するには、次を実行します。
SHOW TABLES IN samples.tpch
Databricks データセット (databricks-datasets)
Azure Databricks には、DBFS にマウントされたさまざまなサンプル データセットが含まれています。
注意
Databricks データセットの可用性と場所は、予告なく変更される場合があります。
Databricks のデータセットを参照する
Python、Scala、または R ノートブックからこれらのファイルを参照するには、Databricks ユーティリティ (dbutils) リファレンスを使用できます。 次のコードを使用すると、使用可能なすべての Databricks データセットが一覧表示されます。
Python
display(dbutils.fs.ls('/databricks-datasets'))
Scala
display(dbutils.fs.ls("/databricks-datasets"))
R
%fs ls "/databricks-datasets"
Databricks データセットに関する情報を取得する
データセットに関する詳細情報を取得するには、次のコード例に示すように、ローカル ファイル API を使用して、Python、R、または Scala ノートブックを使用し、データセット README
を出力します (使用可能な場合)。
Python
f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())
Scala
scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
print
}
R
library(readr)
f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)
Databricks データセットに基づいてテーブルを作成する
このコード例では、SQL エディターで SQL を使用する方法、または SQL、Python、Scala、または R ノートブックを使用して Databricks データセットに基づいてテーブルを作成する方法を示します。
SQL
CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')
Python
spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
Scala
spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
R
library(SparkR)
sparkR.session()
sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
CSV 形式のサード パーティのサンプル データセット
Azure Databricks には、サードパーティのサンプル データセットをコンマ区切り値 (CSV) ファイルとして Azure Databricks ワークスペースにすばやくアップロードするためのツールが組み込まれています。 CSV 形式で利用できる一般的なサード パーティ製サンプル データセットの一部:
サンプル データセット | サンプル データセットを CSV ファイルとしてダウンロードするには… |
---|---|
リスの国勢調査 | [データ] Web ページで、[データのパーク] をクリックします。 リスデータ、または ストーリー。 |
OWID データセット コレクション | GitHub リポジトリで、データセット フォルダーをクリックします。 ターゲット データセットを含むサブフォルダーをクリックし、データセットの CSV ファイルをクリックします。 |
CSV データセットの Data.gov | 検索結果 Web ページで、対象の検索結果をクリックし、CSV アイコンの横にある [ダウンロード] をクリックします。 |
ダイヤモンド (Kaggle アカウントが必要) | データセットの Web ページの [データ] タブで、 [データ] タブの [diamonds.csv] の横にある [ダウンロード] アイコンをクリックします。 |
NYC タクシー乗車時間 (Kaggle アカウントが必要) | データセットの Web ページで、[データ] タブの [sample_submission.zip] の横にある ダウンロード アイコンをクリックします。 データセットの CSV ファイルを検索するには、ダウンロードした ZIP ファイルの内容を抽出します。 |
UFO サイト (data.world アカウントが必要) | データセットの Web ページで、 nuforc_reports.csv の横にある、[ダウンロード] アイコンをクリックします。 |
Azure Databricks ワークスペースでサードパーティのサンプル データセットを使用するには、次の操作を行います。
- サード パーティの指示に従って、データセットを CSV ファイルとしてローカル コンピューターにダウンロードします。
- ローカル コンピューターから Azure Databricks ワークスペースに CSV ファイルをアップロードします。
- インポートされたデータを操作するには、Databricks SQL を使用してデータを照会します。 または、ノートブックを使用してデータを DataFrame として読み込むことができます。
ライブラリ内のサードパーティのサンプル データセット
一部のサード パーティには、Python パッケージ インデックス (PyPI) パッケージや包括的な R アーカイブ ネットワーク (CRAN) パッケージなど、ライブラリ内のサンプル データセットが含まれています。 詳細については、ライブラリ プロバイダーのドキュメントを参照してください。
- クラスター ユーザー インターフェイスを使用して Azure Databricks クラスターにライブラリをインストールするには、「クラスター ライブラリ」を参照してください。
- Azure Databricks ノートブックを使用して Python ライブラリをインストールするには、「ノートブック スコープの Python ライブラリ」を参照してください。
- Azure Databricks ノートブックを使用して R ライブラリをインストールするには、「ノートブック スコープの R ライブラリ」を参照してください。
フィードバック
https://aka.ms/ContentUserFeedback」を参照してください。
以下は間もなく提供いたします。2024 年を通じて、コンテンツのフィードバック メカニズムとして GitHub の issue を段階的に廃止し、新しいフィードバック システムに置き換えます。 詳細については、「フィードバックの送信と表示