UnicodeCategory Výčet

Definice

Definuje kategorii znaku unicode.

public enum class UnicodeCategory
public enum UnicodeCategory
[System.Serializable]
public enum UnicodeCategory
[System.Serializable]
[System.Runtime.InteropServices.ComVisible(true)]
public enum UnicodeCategory
type UnicodeCategory = 
[<System.Serializable>]
type UnicodeCategory = 
[<System.Serializable>]
[<System.Runtime.InteropServices.ComVisible(true)>]
type UnicodeCategory = 
Public Enum UnicodeCategory
Dědičnost
UnicodeCategory
Atributy

Pole

ClosePunctuation 21

Uzavírací znak jednoho ze spárovaných interpunkčních znamének, jako jsou závorky, hranaté závorky a složené závorky. Signified by the Unicode označení "Pe" (interpunkce, close). Hodnota je 21.

ConnectorPunctuation 18

Znak interpunkce spojnice, který spojuje dva znaky. Označení Unicode "Pc" (interpunkce, konektor). Hodnota je 18.

Control 14

Znak kódu řízení s hodnotou Unicode U+007F nebo v rozsahu U+0000 až U+001F nebo U+0080 až U+009F. Označeno označením "Cc" v kódování Unicode (jiný, ovládací prvek). Hodnota je 14.

CurrencySymbol 26

Znak symbolu měny. Označeno označením Unicode "Sc" (symbol, měna). Hodnota je 26.

DashPunctuation 19

Znak pomlčky nebo spojovníku. Označení unicode označení "Pd" (interpunkce, pomlčka). Hodnota je 19.

DecimalDigitNumber 8

Znak desetinné číslice, tj. znak představující celé číslo v rozsahu 0 až 9. Označeno označením Unicode "Nd" (číslo, desetinná číslice). Hodnota je 8.

EnclosingMark 7

Uzavřený znak značky, což je nekombinující znak, který obklopuje všechny předchozí znaky až do základního znaku a včetně. Označeno označením Unicode "Já" (značka, ohraničení). Hodnota je 7.

FinalQuotePunctuation 23

Znak uvozovek nebo konečný znak uvozovek. Označení unicode označení Pf (interpunkce, konečná uvozovka). Hodnota je 23.

Format 15

Formátovat znak, který má vliv na rozložení textu nebo provoz textových procesů, ale obvykle se nevykresluje. Označeno označením Unicode "Cf" (jiný formát). Hodnota je 15.

InitialQuotePunctuation 22

Počáteční nebo počáteční znak uvozovek. Označeno označením Unicode "Pi" (interpunkce, počáteční uvozovka). Hodnota je 22.

LetterNumber 9

Číslo reprezentované písmenem místo desetinné číslice, například římské číslo pro pět, což je "V". Indikátor je označen označením Unicode "Nl" (číslo, písmeno). Hodnota je 9.

LineSeparator 12

Znak, který slouží k oddělení řádků textu. Označeno označením Unicode "Zl" (oddělovač, čára). Hodnota je 12.

LowercaseLetter 1

Malá písmena. Označeno označením Unicode "Ll" (písmeno, malá písmena). Hodnota je 1.

MathSymbol 25

Znak matematického symbolu, například "+" nebo "= ". Označeno označením Unicode "Sm" (symbol, matematika). Hodnota je 25.

ModifierLetter 3

Modifikační znak písmena, což je volně stojící znak, který označuje úpravy předchozího písmena. Označeno označením Unicode "Lm" (písmeno, modifikátor). Hodnota je 3.

ModifierSymbol 27

Modifikační znak symbolu, který označuje úpravy okolních znaků. Například lomítko zlomku označuje, že číslo vlevo je čitatel a číslo vpravo je jmenovatel. Indikátor je označen označením Unicode "Sk" (symbol, modifikátor). Hodnota je 27.

NonSpacingMark 5

Nonspacing character indikuje úpravy základního znaku. Označeno označením Unicode "Mn" (značka, nonspacing). Hodnota je 5.

OpenPunctuation 20

Počáteční znak některého ze spárovaných interpunkčních znamének, jako jsou závorky, hranaté závorky a složené závorky. Označeno označením Unicode "Ps" (interpunkční znaménka, otevřená). Hodnota je 20.

OtherLetter 4

Písmeno, které není velkým písmenem, malými písmeny, záhlavím nebo modifikačním písmenem. Označeno označením Unicode "Lo" (písmeno, jiné). Hodnota je 4.

OtherNotAssigned 29

Znak, který není přiřazen k žádné kategorii unicode. Označení unicode označení "Cn" (jiné, nepřiřazeno). Hodnota je 29.

OtherNumber 10

Číslo, které není desetinnou číslicí ani číslem písmena, například zlomek 1/2. Indikátor je označen označením Unicode "Ne" (číslo, jiné). Hodnota je 10.

OtherPunctuation 24

Interpunkční znaméčko, které není spojnicí, pomlčkou, otevřenou interpunkcí, závěrečnou interpunkcí, počáteční uvozovkou nebo konečnou uvozovkou. Označení unicode označení "Po" (interpunkční znaménka, jiné). Hodnota je 24.

OtherSymbol 28

Znak symbolu, který není matematický symbol, symbol měny nebo modifikační symbol. Označení unicode označení "So" (symbol, jiné). Hodnota je 28.

ParagraphSeparator 13

Znak používaný k oddělení odstavců. Označeno označením Unicode "Zp" (oddělovač, odstavec). Hodnota je 13.

PrivateUse 17

Znak privátního použití s hodnotou Unicode v rozsahu U+E000 až U+F8FF. Označeno označením Unicode "Co" (jiné, soukromé použití). Hodnota je 17.

SpaceSeparator 11

Znak mezery, který nemá žádný glyf, ale není znakem ovládacího prvku nebo formátu. Označeno označením Unicode "Zs" (oddělovač, mezera). Hodnota je 11.

SpacingCombiningMark 6

Mezery, které označují úpravy základního znaku a ovlivňují šířku glyfu pro tento základní znak. Označeno označením Unicode "Mc" (značka, kombinování mezer). Hodnota je 6.

Surrogate 16

Vysoký náhradní znak nebo nízký náhradní znak. Hodnoty náhradního kódu jsou v rozsahu U+D800 až U+DFFF. Označení unicode označení "Cs" (jiné, náhradní). Hodnota je 16.

TitlecaseLetter 2

Písmeno s názvem. Označeno označením Unicode "Lt" (písmeno, název). Hodnota je 2.

UppercaseLetter 0

Velká písmena. Označení unicode označení "Lu" (písmeno, velká písmena). Hodnota je 0.

Příklady

Následující příklad zobrazí znaky a jejich odpovídající body kódu pro znaky v kategorii Velká písmenaLetter. Příklad můžete upravit tak, aby zobrazoval písmena v jakékoli jiné kategorii, a to tak, že v přiřazení k category proměnné nahradíte UppercaseLetter kategorií, která vás zajímá. Všimněte si, že výstup některých kategorií může být rozsáhlý.

using System;
using System.Globalization;

public class Example
{
   public static void Main()
   {
      int ctr = 0;
      UnicodeCategory category = UnicodeCategory.UppercaseLetter;

      for (ushort codePoint = 0; codePoint < ushort.MaxValue; codePoint++) {
         Char ch = (char)codePoint;

         if (CharUnicodeInfo.GetUnicodeCategory(ch) == category) {
            if (ctr % 5 == 0)
               Console.WriteLine();
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint);
            ctr++;
         }
      }
      Console.WriteLine();
      Console.WriteLine("\n{0} characters are in the {1:G} category",
                        ctr, category);
   }
}
Imports System.Globalization

Module Example
   Public Sub Main()
      Dim ctr As Integer = 0
      Dim category As UnicodeCategory = UnicodeCategory.UppercaseLetter
      
      For codePoint As UShort = 0 To UShort.MaxValue - 1
         Dim ch As Char = Convert.ToChar(codePoint)

         If CharUnicodeInfo.GetUnicodeCategory(ch) = category Then
            If ctr Mod 5 = 0 Then Console.WriteLine()
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint)
            ctr += 1
         End If 
      Next
      Console.WriteLine()
      Console.WriteLine()
      Console.WriteLine("{0} characters are in the {1:G} category", 
                        ctr, category)   
   End Sub
End Module

Poznámky

Člen výčtu UnicodeCategory je vrácen metodami Char.GetUnicodeCategory a CharUnicodeInfo.GetUnicodeCategory . Výčet se UnicodeCategory také používá k podpoře Char metod, jako IsUpper(Char)je . Takové metody určují, zda je zadaný znak členem konkrétní obecné kategorie unicode. Obecná kategorie Unicode definuje širokou klasifikaci znaku, tj. označení jako typu písmena, desetinné číslice, oddělovače, matematického symbolu, interpunkce atd.

Tento výčet je založen na standardu Unicode verze 5.0. Další informace najdete v podtémech Formát souboru UCD a Obecné hodnoty kategorií v databázi znaků Unicode.

Standard Unicode definuje následující:

Náhradní pár je kódovaná reprezentace znaku pro jeden abstraktní znak, který se skládá ze sekvence dvou jednotek kódu, kde první jednotka páru je vysoká náhradní a druhá je nízká náhradní. Vysoká náhrada je bod kódu Unicode v rozsahu U+D800 až U+DBFF a nízká náhrada je bod kódu Unicode v rozsahu U+DC00 až U+DFFF.

Kombinující sekvence znaků je kombinace základního znaku a jednoho nebo více kombinujících znaků. Náhradní pár představuje základní znak nebo kombinační znak. Kombinační znak je buď mezera, nebo mezera. Mezery kombinující znak zabere při vykreslení sám o sobě pozici mezery, zatímco znak bez mezery kombinující znak ne. Diakritická znaménka jsou příkladem nekombinujících znaků.

Modifikační písmeno je volně stojící znak, který podobně jako kombinační znak označuje úpravy předchozího písmena.

Ohraničující značka je nekombinující znak, který obklopuje všechny předchozí znaky až do základního znaku a včetně.

Formátovací znak je znak, který se obvykle nevykresluje, ale ovlivňuje rozložení textu nebo provoz textových procesů.

Standard Unicode definuje několik variant některých interpunkčních znamének. Spojovník může být například jednou z několika hodnot kódu, které představují spojovník, například U+002D (pomlčka minus) nebo U+00AD (měkké pomlčky) nebo U+2010 (pomlčka) nebo U+2011 (nerozlučující spojovník). Totéž platí pro pomlčky, mezery a uvozovky.

Standard Unicode také přiřazuje kódy k reprezentaci desetinných číslic, které jsou specifické pro daný skript nebo jazyk, například U+0030 (číslice nula) a U+0660 (arabsko-indické číslice nula).

Platí pro

Viz také