UnicodeCategory Énumération

Définition

Définit la catégorie Unicode d'un caractère.

public enum class UnicodeCategory
public enum UnicodeCategory
[System.Serializable]
public enum UnicodeCategory
[System.Serializable]
[System.Runtime.InteropServices.ComVisible(true)]
public enum UnicodeCategory
type UnicodeCategory = 
[<System.Serializable>]
type UnicodeCategory = 
[<System.Serializable>]
[<System.Runtime.InteropServices.ComVisible(true)>]
type UnicodeCategory = 
Public Enum UnicodeCategory
Héritage
UnicodeCategory
Attributs

Champs

ClosePunctuation 21

Caractère fermant de l’un des signes de ponctuation allant par paire, tels que les parenthèses, les crochets et les accolades. Signifié par la désignation Unicode “Pe” (punctuation, close). La valeur est 21.

ConnectorPunctuation 18

Caractère de ponctuation connecteur qui connecte deux caractères. Signifié par la désignation Unicode “Pc” (punctuation, connector). La valeur est 18.

Control 14

Caractère de code de contrôle, avec une valeur Unicode de U+007F ou comprise entre U+0000 et U+001F ou entre U+0080 et U+009F. Signifié par la désignation Unicode “Cc” (other, control). La valeur est 14.

CurrencySymbol 26

Caractère de symbole monétaire. Signifié par la désignation Unicode “Sc” (symbol, currency). La valeur est 26.

DashPunctuation 19

Tiret ou trait d’union. Signifié par la désignation Unicode “Pd” (punctuation, dash). La valeur est 19.

DecimalDigitNumber 8

Caractère de chiffre décimal, c’est-à-dire un caractère représentant un entier compris entre 0 et 9. Signifié par la désignation Unicode “Nd” (number, decimal digit). La valeur est égale à 8.

EnclosingMark 7

Caractère englobant, autrement dit un caractère de non-espacement qui entoure tous les caractères précédents jusque et y compris un caractère de base. Signifié par la désignation Unicode “Me” (mark, enclosing). La valeur est 7.

FinalQuotePunctuation 23

Guillemet fermant ou final. Signifié par la désignation Unicode “Pf” (punctuation, final quote). La valeur est 23.

Format 15

Caractère de format qui affecte la disposition du texte ou le fonctionnement des processus de texte, mais qui n’est normalement pas affiché. Signifié par la désignation Unicode “Cf” (other, format). La valeur est 15.

InitialQuotePunctuation 22

Guillemet ouvrant ou initial. Signifié par la désignation Unicode “Pi” (punctuation, initial quote). La valeur est 22.

LetterNumber 9

Nombre représenté par une lettre plutôt qu’un chiffre décimal, par exemple le chiffre romain cinq, qui est “V”. L’indicateur est signifié par la désignation Unicode “Nl” (number, letter). La valeur est 9.

LineSeparator 12

Caractère utilisé pour séparer des lignes de texte. Signifié par la désignation Unicode “Zl” (separator, line). La valeur est 12.

LowercaseLetter 1

Lettre minuscule. Signifié par la désignation Unicode “Ll” (letter, lowercase). La valeur est égale à 1.

MathSymbol 25

Caractère de symbole mathématique, tel que “+” ou “=”. Signifié par la désignation Unicode “Sm” (symbol, math). La valeur est 25.

ModifierLetter 3

Caractère lettre modificative, c’est-à-dire caractère d’espacement isolé qui indique des modifications apportées à une lettre précédente. Signifié par la désignation Unicode “Lm” (letter, modifier). La valeur est 3.

ModifierSymbol 27

Caractère de symbole modificateur, qui indique des modifications apportées à des caractères voisins. Par exemple, la barre oblique de fraction indique que le nombre situé à gauche est le numérateur et le nombre situé à droite est le dénominateur. L’indicateur est signifié par la désignation Unicode “Sk” (symbol, modifier). La valeur est 27.

NonSpacingMark 5

Caractère de non-espacement qui indique des modifications apportées à un caractère de base. Signifié par la désignation Unicode “Mn” (mark, nonspacing). La valeur est 5.

OpenPunctuation 20

Caractère ouvrant de l’un des signes de ponctuation allant par paire, tels que les parenthèses, les crochets et les accolades. Signifié par la désignation Unicode “Ps” (punctuation, open). La valeur est 20.

OtherLetter 4

Lettre qui n’est pas une lettre majuscule, une lettre minuscule, une lettre initiale majuscule ou une lettre modificative. Signifié par la désignation Unicode “Lo” (letter, other). La valeur est égale à 4.

OtherNotAssigned 29

Caractère qui n’est affecté à aucune catégorie Unicode. Signifié par la désignation Unicode “Cn” (other, not assigned). La valeur est 29.

OtherNumber 10

Nombre qui n’est ni un chiffre décimal ni un nombre lettre, par exemple la fraction 1/2. L’indicateur est signifié par la désignation Unicode “No” (number, other). La valeur est 10.

OtherPunctuation 24

Caractère de ponctuation qui n’est pas un connecteur, un trait d’union, une ponctuation ouvrante, une ponctuation fermante, un guillemet initial ou un guillemet fermant. Signifié par la désignation Unicode “Po” (punctuation, other). La valeur est 24.

OtherSymbol 28

Caractère de symbole qui n’est pas un symbole mathématique, un symbole monétaire ou un symbole modificateur. Signifié par la désignation Unicode “So” (symbol, other). La valeur est 28.

ParagraphSeparator 13

Caractère utilisé pour séparer des paragraphes. Signifié par la désignation Unicode “Zp” (separator, paragraph). La valeur est 13.

PrivateUse 17

Caractère à utilisation privée, avec une valeur Unicode comprise dans la plage U+E000 à U+F8FF. Signifié par la désignation Unicode “Co” (other, private use). La valeur est 17.

SpaceSeparator 11

Caractère d’espace, qui n’a pas de glyphe mais n’est pas un caractère de contrôle ou de format. Signifié par la désignation Unicode “Zs” (separator, space). La valeur est 11.

SpacingCombiningMark 6

Caractère d’espacement qui indique des modifications apportées à un caractère de base et qui affecte la largeur du glyphe de ce caractère de base. Signifié par la désignation Unicode “Mc” (mark, spacing combining). La valeur est 6.

Surrogate 16

Caractère de substitut substitution ou de substitution faible. Les valeurs de code de substitution sont comprises dans la plage U+D800 à U+DFFF. Signifié par la désignation Unicode “Cs” (other, surrogate). La valeur est 16.

TitlecaseLetter 2

Lettre initiale majuscule. Signifié par la désignation Unicode “Lt” (letter, titlecase). La valeur est égale à 2.

UppercaseLetter 0

Lettre majuscule. Signifié par la désignation Unicode “Lu” (letter, uppercase). La valeur est égale à 0.

Exemples

L’exemple suivant affiche les caractères et leurs points de code correspondants pour les caractères de la catégorie UppercaseLetter. Vous pouvez modifier l’exemple pour afficher les lettres dans n’importe quelle autre catégorie en remplaçant UppercaseLetter par la catégorie qui vous intéresse dans l’affectation à la category variable. Notez que la sortie de certaines catégories peut être étendue.

using System;
using System.Globalization;

public class Example
{
   public static void Main()
   {
      int ctr = 0;
      UnicodeCategory category = UnicodeCategory.UppercaseLetter;

      for (ushort codePoint = 0; codePoint < ushort.MaxValue; codePoint++) {
         Char ch = (char)codePoint;

         if (CharUnicodeInfo.GetUnicodeCategory(ch) == category) {
            if (ctr % 5 == 0)
               Console.WriteLine();
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint);
            ctr++;
         }
      }
      Console.WriteLine();
      Console.WriteLine("\n{0} characters are in the {1:G} category",
                        ctr, category);
   }
}
Imports System.Globalization

Module Example
   Public Sub Main()
      Dim ctr As Integer = 0
      Dim category As UnicodeCategory = UnicodeCategory.UppercaseLetter
      
      For codePoint As UShort = 0 To UShort.MaxValue - 1
         Dim ch As Char = Convert.ToChar(codePoint)

         If CharUnicodeInfo.GetUnicodeCategory(ch) = category Then
            If ctr Mod 5 = 0 Then Console.WriteLine()
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint)
            ctr += 1
         End If 
      Next
      Console.WriteLine()
      Console.WriteLine()
      Console.WriteLine("{0} characters are in the {1:G} category", 
                        ctr, category)   
   End Sub
End Module

Remarques

Un membre de l’énumération UnicodeCategory est retourné par les Char.GetUnicodeCategory méthodes et CharUnicodeInfo.GetUnicodeCategory . L’énumération UnicodeCategory est également utilisée pour prendre en charge Char les méthodes, telles que IsUpper(Char). Ces méthodes déterminent si un caractère spécifié est membre d’une catégorie générale Unicode particulière. Une catégorie générale Unicode définit la classification générale d’un caractère, c’est-à-dire la désignation en tant que type de lettre, chiffre décimal, séparateur, symbole mathématique, ponctuation, etc.

Cette énumération est basée sur la norme Unicode, version 5.0. Pour plus d’informations, consultez les sous-rubriques « Format de fichier UCD » et « Valeurs des catégories générales » dans la Base de données de caractères Unicode.

La norme Unicode définit les éléments suivants :

Une paire de substituts est une représentation codée d’un caractère abstrait unique qui se compose d’une séquence de deux unités de code, où la première unité de la paire est un substitut élevé et la seconde est un substitut faible. Un substitut élevé est un point de code Unicode dans la plage U+D800 à U+DBFF et un substitut faible est un point de code Unicode dans la plage U+DC00 à U+DFFF.

Une séquence de caractères combinant est une combinaison d’un caractère de base et d’un ou plusieurs caractères combinés. Une paire de substitution représente un caractère de base ou un caractère de combinaison. Un caractère de combinaison est un espacement ou un non-espacement. Un caractère de combinaison d’espacement prend une position d’espacement par lui-même lors du rendu, contrairement à un caractère de combinaison sans espacement. Les diacritiques sont un exemple de combinaison de caractères non espacés.

Une lettre modificateur est un caractère d’espacement libre qui, comme un caractère de combinaison, indique les modifications d’une lettre précédente.

Une marque englobante est un caractère de combinaison non espacé qui entoure tous les caractères précédents jusqu’à et y compris un caractère de base.

Un caractère de format est un caractère qui n’est normalement pas rendu, mais qui affecte la disposition du texte ou le fonctionnement des processus de texte.

La norme Unicode définit plusieurs variantes de certains signes de ponctuation. Par exemple, un trait d’union peut être l’une des valeurs de code qui représentent un trait d’union, comme U+002D (trait d’union-moins) ou U+00AD (trait d’union mou) ou U+2010 (trait d’union) ou U+2011 (trait d’union non cassant). Il en va de même pour les tirets, les espaces et les guillemets.

La norme Unicode affecte également des codes à des représentations de chiffres décimaux spécifiques à un script ou à une langue donnée, par exemple, U+0030 (chiffre zéro) et U+0660 (chiffre arabe zéro).

S’applique à

Voir aussi