機械学習とディープラーニング用のデータの読み込み

[アーティクル]
10/01/2024

このセクションでは、ML および DL アプリケーション専用のデータを読み込む方法について説明します。データの読み込みの一般的な情報については、「Databricks レイクハウスにデータを取り込む」を参照してください。

データの読み込みとモデルのチェックポイント処理のためにファイルを格納する

機械学習アプリケーションでは、データの読み込みとモデルのチェックポイント処理に共有ストレージを使用することが必要な場合があります。これは分散型ディープラーニングの場合に特に重要です。

Azure Databricks では、Spark とローカルファイル API の両方を使用してクラスター上のデータにアクセスするための Databricks ファイルシステム (DBFS) が提供されています。

表形式データを読み込む

表形式の機械学習データはテーブルまたはファイルから読み込むことができます (例については、「CSV ファイルを読み取る」を参照)。 PySpark メソッド toPandas() を使用して Apache Spark DataFrames を pandas DataFrames に変換し、必要に応じて、PySpark メソッド to_numpy() を使用して NumPy 形式に変換できます。

大規模言語モデルを微調整するためのデータを準備する

Hugging Face Transformers と Hugging Face Datasets を使用して、オープンソースの大規模言語モデルを微調整するためのデータを準備できます。

Hugging Face モデルを微調整するためのデータを準備する

分散型ディープラーニングトレーニングについて、データを準備してください。

このセクションでは、Mosaic ストリーミングおよび TFRecords を使用した分散型ディープラーニングトレーニング用のデータ準備について説明します。

次の方法で共有

機械学習とディープラーニング用のデータの読み込み

データの読み込みとモデルのチェックポイント処理のためにファイルを格納する

表形式データを読み込む

大規模言語モデルを微調整するためのデータを準備する

分散型ディープラーニングトレーニングについて、データを準備してください。

フィードバック

その他のリソース

次の方法で共有

機械学習とディープ ラーニング用のデータの読み込み

データの読み込みとモデルのチェックポイント処理のためにファイルを格納する

表形式データを読み込む

大規模言語モデルを微調整するためのデータを準備する

分散型ディープ ラーニング トレーニングについて、データを準備してください。

フィードバック

その他のリソース

機械学習とディープラーニング用のデータの読み込み

分散型ディープラーニングトレーニングについて、データを準備してください。