正規表現を使用したデータの分割
重要
Machine Learning Studio (クラシック) のサポートは、2024 年 8 月 31 日に終了します。 その日までに、Azure Machine Learning に切り替えすることをお勧めします。
2021 年 12 月 1 日以降、新しい Machine Learning Studio (クラシック) リソースは作成できません。 2024 年 8 月 31 日まで、既存の Machine Learning Studio (クラシック) リソースを引き続き使用できます。
- ML Studio (クラシック) から Azure Machine Learning への機械学習プロジェクトの移動に関する情報を参照してください。
- Azure Machine Learning についての詳細を参照してください。
ML Studio (クラシック) のドキュメントは廃止予定であり、今後更新されない可能性があります。
この記事では、Machine Learning Studio (クラシック) のデータの分割モジュールで正規表現分割オプションを使用する方法について説明します。 このオプションは、テキスト列にフィルター条件を適用する必要がある場合に便利です。 たとえば、特定の製品が記載されているかどうかによってデータセットを分割できます。
注意
適用対象: Machine Learning Studio (クラシック)のみ
類似のドラッグ アンド ドロップ モジュールは Azure Machine Learning デザイナーで使用できます。
正規表現の分割は、1つのテキスト列で使用できます。 テキスト列の名前を含む正規表現を定義してから、列に適用する条件を設定します。たとえば、"先頭に"、"contains"、"は含まれない" などです。
機械学習の実験でのデータのパーティション分割に関する一般的な情報については、「データとパーティションの分割と分割」を参照してください。
関連タスク
データの分割モジュールのその他のオプション:
相対式を使用してデータを分割する: 数値データに式を適用します。
Split レコメンダー dataset: 推奨モデルで使用されるデータセットを分割します。 データセットには、アイテム、ユーザー、評価の3つの列が必要です。
正規表現を使用してデータセットを分割する
ご利用の実験に Split Data (データの分割) モジュールを追加し、それを入力として分割するデータセットに接続します。
[Splitting mode]\(分割モード\) として、[Regular expression split]\(正規表現分割\) を選択します。
[Regular expression]\(正規表現\) ボックスで、有効な正規表現を入力します。 ここでは、いくつかの例を示します。
正規表現は、指定された列にのみ適用されます。この列は、文字列データ型である必要があります。
正規表現の作成については、「 正規表現言語-クイックリファレンス」を参照してください。
実験を実行するか、モジュールを右クリックして [ 選択したものを実行] を選択します。
指定した正規表現に基づき、データセットは 2 つの行セットに分割されます。一方は、式と一致する値を含む行のセット、もう一方は残りのすべての行のセットです。
例
次の例では、 正規表現 オプションを使用してデータセットを分割する方法を示します。
1 単語単位
この例では、列 Text
内のテキスト Gryphon
を含むすべての行を最初のデータセットに格納し、他の行を分割データの2番目の出力に配置します。
\"Text" Gryphon
Substring
この例では、インデックス値が1である、データセットの2番目の列内の任意の位置で、指定された文字列を検索します。 一致照合では、大文字と小文字が区別されます。
(\1) ^[a-f]
最初の結果データセットには、インデックス列が a
、b
、c
、d
、e
、f
のいずれかの文字から始まるすべての行が含まれます。 他のすべての行は、2 番目の出力に送られます。
IP アドレスでの文字列の一致
この例では、一部のサーバーログデータを分析用に2つのカテゴリに分割します。つまり、ファイアウォールの内側にある接続と、ファイアウォールの外側にある IP アドレスを使用した接続です。 正規表現は、フィールド (文字列データ型) に IP_Address
適用されます。
(\IP_Address) ^[10]
最初の出力には、で 10
始まるすべてのアドレスが含まれます。