TSV への変換
重要
Machine Learning Studio (クラシック) のサポートは、2024 年 8 月 31 日に終了します。 その日までに、Azure Machine Learning に切り替えすることをお勧めします。
2021 年 12 月 1 日以降、新しい Machine Learning Studio (クラシック) リソースは作成できません。 2024 年 8 月 31 日まで、既存の Machine Learning Studio (クラシック) リソースを引き続き使用できます。
- ML Studio (クラシック) から Azure Machine Learning への機械学習プロジェクトの移動に関する情報を参照してください。
- Azure Machine Learning についての詳細を参照してください。
ML Studio (クラシック) のドキュメントは廃止予定であり、今後更新されない可能性があります。
データ入力をタブ区切り形式に変換します
Category: データ形式の変換
注意
適用対象: Machine Learning Studio (クラシック)のみ
類似のドラッグ アンド ドロップ モジュールは Azure Machine Learning デザイナーで使用できます。
モジュールの概要
この記事では、Machine Learning studio (クラシック) のTSV への変換モジュールを使用して、すべての Machine Learning studio (クラシック) モジュールで使用されている内部形式のデータセットをタブ区切り形式のフラットファイルに変換する方法について説明します。
タブ区切り値 (TSV) ファイルは、次のような多くの外部ツールと互換性があります。
R と Python
Excel と PowerPivot
すべてのリレーショナル データベース
たとえば、実験に別のツールで再利用するために保存する中間データセットがある場合、またはコードから呼び出す場合は、TSV 形式に変換し、変換されたデータセットを右クリックして、データセットへのアクセスに必要な Python コードを取得します。
TSV への変換の使用方法
タブ区切り形式でデータセットをダウンロードする必要がある場合は、 TSV への変換モジュールを 使用します。
「 TSV への変換 」を実験に追加します。 このモジュールは Machine Learning Studio (クラシック) の [データ形式の変換] カテゴリで確認できます。
モジュールを別の datset、または表形式のデータセットを出力するモジュールに Connect します。
実験を実行するか、[ TSV に変換 ] モジュールだけを右クリックして、[ 選択されたものを実行] を選択します。
結果
変換が完了したら、データセットを開いたり、R または Python コードからデータセットを呼び出したり、Jupyter notebook で使用したり、ローカルファイルに保存したりできます。
データセットをダウンロードする場合は、モジュールの出力をダブルクリックし、datset を開くか保存するかを指定します。
[ 開く] を選択すると、既定では、コンピューターが開くツールを使用してデータセットが読み込まれます。TSV ファイル。 通常、これは Microsoft Excel です。
[ データセットのダウンロード] を選択した場合、既定では、モジュールの名前と、ワークスペース ID を表す GUID を使用してファイルが保存されます。 ただし、ダウンロード中に [名前 を付けて保存 ] オプションを選択し、ファイル名または場所を変更することができます。
例
この形式に固有の例はありませんが、 Azure AI Galleryで次のサンプル実験を調べることで、形式変換を使用する方法の例を確認できます。
二項分類のクロス検証のサンプル: 複数のモデルの結果を、Excel などのツールを使用して比較できるように、クロス検証の結果をコンマ区切り値 (CSV) 形式にエクスポートします。
色ベースのイメージ圧縮量子化: 分析の各部分に使用されるデータセットを csv ファイルにエクスポートします。これにより、csv 形式をサポートする任意のツールで同様のモデルを簡単に実行できるようになります。
テクニカル ノート
このセクションには、実装の詳細、ヒント、よく寄せられる質問への回答が含まれています。
TSV 形式の要件
タブ区切り値 (TSV) は、表形式でのデータの格納に使用されるテキスト形式です。 CSV 形式によく似ていますが、区切り記号はコンマではなくタブです。
TSV 形式は、データにコンマが含まれている場合、CSV 形式の代わりに使用できます。 コンマはテキスト データでは一般的で、ヨーロッパの数値形式でも使用されています。
タブ区切り形式の問題の 1 つとして、タブ ストップが非構造化テキストにおいて空白と見なされることがよくあります。 また、TSV の IANA 標準では、フィールド内のタブを禁止して、クリーンで正確な TSV ファイルの構文解析を奨励しています。
Machine Learning Studio (クラシック) での TSV ファイルの次の要件に注意してください。
TSV への変換モジュールは、列名がデータセットに含まれている場合、単一の見出し行の出力をサポートします。
TSV プロバイダーは、UTF-8 文字エンコーディングのみをサポートします。
TSV ファイルの読み取りまたは書き込み時のパフォーマンスは、CSV などの他の形式よりも低速になる可能性があります。
想定される入力
名前 | 型 | 説明 |
---|---|---|
データセット | データ テーブル | 入力データセット |
出力
名前 | 型 | 説明 |
---|---|---|
結果のデータセット | GenericTsv | 出力データセット |