カウント テーブルのインポート

重要

Machine Learning Studio (クラシック) のサポートは、2024 年 8 月 31 日に終了します。 その日までに、Azure Machine Learning に切り替えすることをお勧めします。

2021 年 12 月 1 日以降、新しい Machine Learning Studio (クラシック) リソースは作成できません。 2024 年 8 月 31 日まで、既存の Machine Learning Studio (クラシック) リソースを引き続き使用できます。

ML Studio (クラシック) のドキュメントは廃止予定であり、今後更新されない可能性があります。

以前に作成したカウントのテーブルをインポートします

カテゴリ: ラーニング Counts

注意

適用対象: Machine Learning Studio (クラシック) のみ

類似のドラッグ アンド ドロップ モジュールは Azure Machine Learning デザイナーで使用できます。

モジュールの概要

この記事では、Machine Learning Studio (クラシック) でカウント テーブルのインポート モジュールを使用する方法について説明します。

カウント テーブルのインポート モジュールの目的は、以前のバージョンのテーブルを使用してカウントベースの統計のテーブルを作成した顧客が実験をアップグレードMachine Learning可能にし、 このモジュールでは、既存のカウント テーブルを新しいデータとマージします。

カウント テーブルと、これらのテーブルを使用して特徴を作成する方法に関する一般的な情報については、「カウントを使用したラーニングを参照してください

重要

このモジュールは、非推奨のビルド カウント テーブルと非推奨の Count Featurizer モジュールを使用する実験との下位互換性のみを目的として提供されています。 新しいモジュールを使用するように実験をアップグレードし、新機能を利用することをお勧めします。

すべての新しい実験では、次のモジュールを使用することをお勧めします。

インポートカウント テーブルを構成する方法

  1. Machine Learning Studio (クラシック) で、非推奨のビルド カウント テーブル モジュールを使用して作成されたカウント テーブルを含む実験を開きます。

  2. カウント テーブル のインポート モジュールを 実験に追加します。

  3. Connectテーブル (非推奨) モジュールの 2 つの出力を、インポート カウント テーブルの一致する入力ポートに追加します

    インポートされたカウント テーブルとマージするカウントの別のデータセットがある場合は、カウント テーブルのインポート モジュールの右端の入力 に接続 します。

  4. Counting type オプションを使用して 、カウント テーブルの格納場所と格納方法を指定します。

    • データセット: カウントの構築に使用されるデータは、Machine Learning Studio (クラシック) に保存されます。

    • BLOB: カウントの構築に使用されるデータは、Azure Storage 内のブロック BLOB Windows格納されます。

    • MapReduce: カウントの構築に使用されるデータは、Azure Storage 内の blob Windowsされます。

      このオプションは、通常、非常に大規模なデータセットに推奨されます。 カウントにアクセスするには、HDInsight クラスターをアクティブにする必要があります。 カウントMapReduceジョブが起動されます。 どちらのアクティビティでも、ストレージとコンピューティングのコストが発生する可能性があります。

      詳細については、Azure での HDInsight に関するページを参照してください

    データ ストレージ モードを指定した後、実験でデータのインポート モジュールを使用してデータにアクセスした場合でも、データの追加の接続情報を指定する必要がある場合があります。 これは、Count Featurizer (非推奨) モジュールは、データを読み取って必要なテーブルを構築するために、データ ストレージに個別にアクセスする理由です。

  5. [テーブル の種類のカウント] オプションを使用して、カウントの格納に使用するテーブルの形式とストレージ モードを指定します。

    • ディクショナリ: ディクショナリ カウント テーブルを使用します。

      選択した列のすべての値は文字列として扱われ、31 ビット サイズまでのビット配列を使用してハッシュされます。 そのため、すべての列の値は負以外の 32 ビット整数で表されます。

    • CMSketch: カウント最小スケッチ テーブルに保存 されたテーブルを使用します

      この形式では、範囲が小さい複数の独立したハッシュ関数を使用して、メモリ効率を向上し、ハッシュの競合の可能性を減らします。

    一般に、小さいデータ セット (1 GB) には Dictionary オプション<を使用し、より大きなデータセットには CMSketch オプションを使用する必要があります。

  6. 実験を実行します。

  7. 完了したら、カウント テーブルのインポート モジュールの出力を右クリックし、 [変換として保存] を選択して、変換の名前を入力します。 これを行う場合、マージされたカウント テーブルと適用した可能性があるすべてのフィーチャー化パラメーターは、新しいデータセットに適用できる形式で保存されます。

次のサンプル実験を使用して、カウントベースのフィーチャー化の 例を次のAzure AI Gallery。

  • フライト遅延予測: 非常に大きなデータセットでカウントベースのフィーチャー化がどのように役立つのか示します。

  • ラーニングカウントを使用する: NYC タクシー データを使用した多クラス分類: 多クラス予測タスクでのカウントベースの特徴の使用を示します。

  • ラーニングカウント: NYC タクシー データを使用した二項分類: 二項分類タスクでカウントベースの特徴を使用します。

注意

これらのギャラリーの実験はすべて、以前のバージョンの Counts モジュールを使用ラーニング使用して作成されました。 Studio (クラシック) で実験を開いた場合、実験は新しいモジュールを使用するように自動的にアップグレードされます。

想定される入力

名前 説明
カウント メタデータ データ テーブル カウントのメタデータ
カウント テーブル データ テーブル count テーブル
カウントされたデータ セット データ テーブル カウントに使用されるデータ セット

モジュールのパラメーター

名前 種類 Range 省略可能 Default 説明
カウントの種類 CountingType 必須 カウントの種類

出力

名前 説明
カウント変換 ITransform インターフェイス カウント変換

例外

例外 説明
エラー 0003 1 つまたは複数の入力が null または空の場合、例外が発生します。
エラー 0018 入力データセットが有効でない場合、例外が発生します。

Studio (クラシック) モジュールに固有のエラーの一覧については、「エラー コードMachine Learning参照してください

API の例外の一覧については、「エラー コードMachine Learning REST API参照してください

こちらもご覧ください

カウントを使用した学習