UnicodeCategory Enumeração

Definição

Define a categoria Unicode de um caractere.

public enum class UnicodeCategory
public enum UnicodeCategory
[System.Serializable]
public enum UnicodeCategory
[System.Serializable]
[System.Runtime.InteropServices.ComVisible(true)]
public enum UnicodeCategory
type UnicodeCategory = 
[<System.Serializable>]
type UnicodeCategory = 
[<System.Serializable>]
[<System.Runtime.InteropServices.ComVisible(true)>]
type UnicodeCategory = 
Public Enum UnicodeCategory
Herança
UnicodeCategory
Atributos

Campos

ClosePunctuation 21

Caractere de fechamento de uma das marcas de pontuação paralelas, como parênteses, colchetes e chaves. Demonstrado pela designação de Unicode “Pe” (pontuação, fechamento). O valor é 21.

ConnectorPunctuation 18

Caractere de pontuação de conector que conecta dois caracteres. Demonstrado pela designação de Unicode “Pc” (pontuação, conector). O valor é 18.

Control 14

Caractere de código de controle, com um valor Unicode de U+007F ou no intervalo de U+0000 a U+001F ou de U+0080 a U+009F. Demonstrado pela designação de Unicode “Cc” (outros, controle). O valor é 14.

CurrencySymbol 26

Caractere de símbolo de moeda. Demonstrado pela designação de Unicode “Sc” (símbolo, moeda). O valor é 26.

DashPunctuation 19

Caractere de traço ou hífen. Demonstrado pela designação de Unicode “Pd” (pontuação, traço). O valor é 19.

DecimalDigitNumber 8

Caractere de dígito decimal, ou seja, um caractere que representa um inteiro no intervalo de 0 a 9. Demonstrado pela designação de Unicode “Nd” (número, dígito decimal). O valor é 8.

EnclosingMark 7

Circunscrever um caractere de marca, que é um caractere de combinação sem espaçamento ao redor de todos os caracteres anteriores um caractere base, inclusive. Demonstrado pela designação de Unicode “Me” (marca, fechamento). O valor é 7.

FinalQuotePunctuation 23

Caractere de aspas de fechamento ou final. Demonstrado pela designação de Unicode “Pf” (pontuação, aspas finais). O valor é 23.

Format 15

Caractere de formato que afeta o layout do texto ou a operação de processos de texto, mas que não é renderizado normalmente. Demonstrado pela designação de Unicode “Cf” (outros, formato). O valor é 15.

InitialQuotePunctuation 22

Caractere de aspas de abertura ou inicial. Demonstrado pela designação de Unicode “Pi” (pontuação, aspas iniciais). O valor é 22.

LetterNumber 9

Número representado por uma letra, em vez de um dígito decimal, por exemplo, o numeral romano para cinco, que é “V”. O indicador é demonstrado pela designação de Unicode “Nl” (número, letra). O valor é 9.

LineSeparator 12

Caractere usado para separar linhas de texto. Demonstrado pela designação de Unicode “Zl” (separador, linha). O valor é 12.

LowercaseLetter 1

Letra minúscula. Demonstrado pela designação de Unicode “Ll” (letra, minúscula). O valor é 1.

MathSymbol 25

Caractere de símbolo matemático, como “+” ou “=”. Demonstrado pela designação de Unicode “Sm” (símbolo, matemática). O valor é 25.

ModifierLetter 3

Caractere de letra modificadora, que é um caractere de espaçamento independente que indica as modificações de uma letra anterior. Demonstrado pela designação de Unicode “Lm” (letra, modificador). O valor é 3.

ModifierSymbol 27

Caractere de símbolo modificador, que indica as modificações de caracteres ao redor. Por exemplo, a barra de fração indica que o número à esquerda é o numerador e o número à direita, o denominador. O indicador é demonstrado pela designação de Unicode “Sk” (símbolo, modificador). O valor é 27.

NonSpacingMark 5

Caractere sem espaçamento que indica as modificações de um caractere base. Demonstrado pela designação de Unicode “Mn” (marca, não espaçamento). O valor é 5.

OpenPunctuation 20

Caractere de abertura de uma das marcas de pontuação paralelas, como parênteses, colchetes e chaves. Demonstrado pela designação de Unicode “Ps” (pontuação, abertura). O valor é 20.

OtherLetter 4

Letra que não é uma letra maiúscula, uma letra minúscula, uma letra de capitalização de título nem uma letra de modificador. Demonstrado pela designação de Unicode “Lo” (letra, outros). O valor é 4.

OtherNotAssigned 29

Caractere que não está atribuído a nenhuma categoria Unicode. Demonstrado pela designação de Unicode “Cn” (outros, não atribuído). O valor é 29.

OtherNumber 10

Número que não é um dígito decimal nem um número de letra, por exemplo, a fração 1/2. O indicador é demonstrado pela designação de Unicode “No” (número, outros). O valor é 10.

OtherPunctuation 24

Caractere de pontuação que não é um conector, um traço, pontuação de abertura, pontuação de fechamento, aspas iniciais nem aspas finais. Demonstrado pela designação de Unicode “Po” (pontuação, outros). O valor é 24.

OtherSymbol 28

Caractere de símbolo que não é um símbolo matemático, símbolo de moeda ou símbolo de modificador. Demonstrado pela designação de Unicode “So” (símbolo, outros). O valor é 28.

ParagraphSeparator 13

Caractere usado para separar parágrafos. Demonstrado pela designação de Unicode “Zp” (separador, parágrafo). O valor é 13.

PrivateUse 17

Caractere de uso particular, com um valor Unicode no intervalo de U+E000 a U+F8FF. Demonstrado pela designação de Unicode “Co” (outros, uso particular). O valor é 17.

SpaceSeparator 11

Caractere de espaço, que não tem glifo, mas que não é um caractere de controle nem de formato. Demonstrado pela designação de Unicode "Zs" (separador, espaço). O valor é 11.

SpacingCombiningMark 6

Caractere de espaçamento que indica as modificações de um caractere base e afeta a largura do glifo desse caractere base. Demonstrado pela designação de Unicode “Mc” (marca, combinação de espaçamento). O valor é 6.

Surrogate 16

Caractere alternativo alto ou baixo. Os valores de código alternativos estão no intervalo de U+D800 a U+DFFF. Demonstrado pela designação de Unicode “Cs” (outros, alternativo). O valor é 16.

TitlecaseLetter 2

Letra de capitalização de título. Demonstrado pela designação de Unicode “Lt” (letra, capitalização de título). O valor é 2.

UppercaseLetter 0

Letra maiúscula. Demonstrado pela designação de Unicode “Lu” (letra, maiúscula). O valor é 0.

Exemplos

O exemplo a seguir exibe os caracteres e seus pontos de código correspondentes para caracteres na categoria UppercaseLetter. Você pode modificar o exemplo para exibir as letras em qualquer outra categoria substituindo UppercaseLetter pela categoria de interesse para você na atribuição à category variável. Observe que a saída para algumas categorias pode ser extensa.

using System;
using System.Globalization;

public class Example
{
   public static void Main()
   {
      int ctr = 0;
      UnicodeCategory category = UnicodeCategory.UppercaseLetter;

      for (ushort codePoint = 0; codePoint < ushort.MaxValue; codePoint++) {
         Char ch = (char)codePoint;

         if (CharUnicodeInfo.GetUnicodeCategory(ch) == category) {
            if (ctr % 5 == 0)
               Console.WriteLine();
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint);
            ctr++;
         }
      }
      Console.WriteLine();
      Console.WriteLine("\n{0} characters are in the {1:G} category",
                        ctr, category);
   }
}
Imports System.Globalization

Module Example
   Public Sub Main()
      Dim ctr As Integer = 0
      Dim category As UnicodeCategory = UnicodeCategory.UppercaseLetter
      
      For codePoint As UShort = 0 To UShort.MaxValue - 1
         Dim ch As Char = Convert.ToChar(codePoint)

         If CharUnicodeInfo.GetUnicodeCategory(ch) = category Then
            If ctr Mod 5 = 0 Then Console.WriteLine()
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint)
            ctr += 1
         End If 
      Next
      Console.WriteLine()
      Console.WriteLine()
      Console.WriteLine("{0} characters are in the {1:G} category", 
                        ctr, category)   
   End Sub
End Module

Comentários

Um membro da UnicodeCategory enumeração é retornado pelos Char.GetUnicodeCategory métodos e CharUnicodeInfo.GetUnicodeCategory . A UnicodeCategory enumeração também é usada para dar suporte Char a métodos, como IsUpper(Char). Esses métodos determinam se um caractere especificado é membro de uma categoria geral Unicode específica. Uma categoria geral Unicode define a classificação ampla de um caractere, ou seja, designação como um tipo de letra, dígito decimal, separador, símbolo matemático, pontuação e assim por diante.

Essa enumeração é baseada no Unicode Standard, versão 5.0. Para obter mais informações, consulte os subtópicos "Formato de arquivo UCD" e "Valores de categoria geral" no Banco de dados de caractere Unicode.

O Padrão Unicode define o seguinte:

Um par alternativo é uma representação de caractere codificado para um único caractere abstrato que consiste em uma sequência de duas unidades de código, em que a primeira unidade do par é um substituto alto e o segundo é um substituto baixo. Um substituto alto é um ponto de código Unicode no intervalo U+D800 a U+DBFF e um substituto baixo é um ponto de código Unicode no intervalo U+DC00 a U+DFFF.

Uma sequência de caracteres de combinação é uma combinação de um caractere base e um ou mais caracteres de combinação. Um par alternativo representa um caractere base ou um caractere de combinação. Um caractere de combinação é espaçamento ou não espaçamento. Um caractere de combinação de espaçamento ocupa uma posição de espaçamento por si só quando renderizado, enquanto um caractere de combinação sem espaçamento não. Diacríticos são um exemplo de não espaçamento combinando caracteres.

Uma letra modificadora é um caractere de espaçamento autônomo que, como um caractere de combinação, indica modificações de uma letra anterior.

Uma marca de fechamento é um caractere de combinação sem espaçamento que envolve todos os caracteres anteriores até e incluindo um caractere base.

Um caractere de formato é um caractere que normalmente não é renderizado, mas que afeta o layout do texto ou a operação de processos de texto.

O Padrão Unicode define várias variações para algumas marcas de pontuação. Por exemplo, um hífen pode ser um dos vários valores de código que representam um hífen, como U+002D (hifen-menos) ou U+00AD (hífen macio) ou U+2010 (hífen) ou U+2011 (hífen sem quebra). O mesmo vale para traços, caracteres de espaço e aspas.

O Padrão Unicode também atribui códigos a representações de dígitos decimais específicos de um determinado script ou idioma, por exemplo, U+0030 (dígito zero) e U+0660 (dígito zero em árabe).

Aplica-se a

Confira também