方法 : Visual Basic で HTML 文字列内のテキストを特定する
更新 : 2007 年 11 月
この例では、単純な正規表現を使用して HTML ドキュメントからタグを削除する方法を説明します。
使用例
HTML タグは、\<[^\>]+\> という正規表現に一致します。この正規表現の意味は次のとおりです。
先頭の文字が "<" で、その後に
文字 ">" 以外の 1 つまたは複数の文字が続き、
最後の文字が ">" となる
この例では、Regex.Replace 共有メソッドを使用して、タグの正規表現に一致する部分をすべて空の文字列に置換します。
''' <summary>Removes the tags from an HTML document.</summary>
''' <param name="htmlText">HTML text to parse.</param>
''' <returns>The text of an HTML document without tags.</returns>
''' <remarks></remarks>
Function GetTextFromHtml(ByVal htmlText As String) As String
Dim output As String = Regex.Replace(htmlText, "\<[^\>]+\>", "")
Return output
End Function
この例を実行するには、Imports ステートメントを使用して System.Text.RegularExpressions 名前空間をインポートすることが必要です。詳細については、「Imports ステートメント (.NET 名前空間および型)」を参照してください。
参照
処理手順
方法 : Visual Basic の HTML 文字列に含まれているハイパーリンクを識別する