方法 : Visual Basic で HTML 文字列内のテキストを特定する

更新 : 2007 年 11 月

この例では、単純な正規表現を使用して HTML ドキュメントからタグを削除する方法を説明します。

使用例

HTML タグは、\<[^\>]+\> という正規表現に一致します。この正規表現の意味は次のとおりです。

  1. 先頭の文字が "<" で、その後に

  2. 文字 ">" 以外の 1 つまたは複数の文字が続き、

  3. 最後の文字が ">" となる

この例では、Regex.Replace 共有メソッドを使用して、タグの正規表現に一致する部分をすべて空の文字列に置換します。

    ''' <summary>Removes the tags from an HTML document.</summary>
    ''' <param name="htmlText">HTML text to parse.</param>
    ''' <returns>The text of an HTML document without tags.</returns>
    ''' <remarks></remarks>
    Function GetTextFromHtml(ByVal htmlText As String) As String
        Dim output As String = Regex.Replace(htmlText, "\<[^\>]+\>", "")
        Return output
    End Function

この例を実行するには、Imports ステートメントを使用して System.Text.RegularExpressions 名前空間をインポートすることが必要です。詳細については、「Imports ステートメント (.NET 名前空間および型)」を参照してください。

参照

処理手順

方法 : Visual Basic の HTML 文字列に含まれているハイパーリンクを識別する

方法 : 文字列から無効な文字を取り除く

その他の技術情報

Visual Basic における文字列の解析