UnicodeCategory Sabit listesi

Tanım

Bir karakterin Unicode kategorisini tanımlar.

public enum class UnicodeCategory
public enum UnicodeCategory
[System.Serializable]
public enum UnicodeCategory
[System.Serializable]
[System.Runtime.InteropServices.ComVisible(true)]
public enum UnicodeCategory
type UnicodeCategory = 
[<System.Serializable>]
type UnicodeCategory = 
[<System.Serializable>]
[<System.Runtime.InteropServices.ComVisible(true)>]
type UnicodeCategory = 
Public Enum UnicodeCategory
Devralma
UnicodeCategory
Öznitelikler

Alanlar

ClosePunctuation 21

Parantezler, köşeli ayraçlar ve ayraçlar gibi eşleştirilmiş noktalama işaretlerinden birinin kapanış karakteri. Unicode "Pe" (noktalama işareti, kapat) ile belirtilir. Değer 21'dir.

ConnectorPunctuation 18

İki karakteri bağlayan bağlayıcı noktalama karakteri. Unicode "Pc" (noktalama işareti, bağlayıcı) ataması ile belirtilir. Değer 18'dir.

Control 14

U+007F Unicode değeriyle veya U+0000 ile U+001F veya U+0080 - U+009F aralığındaki denetim kodu karakteri. Unicode "Cc" (diğer, denetim) ataması ile belirtilir. Değer 14'dür.

CurrencySymbol 26

Para birimi simgesi karakteri. Unicode "Sc" (sembol, para birimi) ile belirtilir. Değer 26'dır.

DashPunctuation 19

Tire veya kısa çizgi karakteri. Unicode "Pd" (noktalama işareti, tire) ile işaret eder. Değer 19'dur.

DecimalDigitNumber 8

Ondalık basamak karakteri, yani 0 ile 9 arasındaki bir tamsayıyı temsil eden karakter. "Nd" Unicode gösterimiyle (sayı, ondalık basamak) işaret eder. Değer 8'dir.

EnclosingMark 7

Önceki tüm karakterleri bir temel karaktere kadar çevreleyen ve bu karakteri çevreleyen, geçirgen olmayan bir birleştirme karakteri olan işaretleme karakteri. "Ben" Unicode gösterimiyle (işaretleme, çevreleme) işaret eder. Değer 7'dir.

FinalQuotePunctuation 23

Kapanış veya son tırnak işareti karakteri. Unicode "Pf" (noktalama işareti, son tırnak) ile belirtilir. Değer 23'dür.

Format 15

Metnin düzenini veya metin işlemlerinin çalışmasını etkileyen ancak normalde işlenmeyen biçim karakteri. Unicode "Cf" (diğer, biçim) ile belirtilir. Değer 15'tir.

InitialQuotePunctuation 22

Açma veya ilk tırnak işareti karakteri. Unicode "Pi" (noktalama işareti, ilk tırnak işareti) ile işaret eder. Değer 22'dir.

LetterNumber 9

Ondalık basamak yerine bir harfle temsil edilen sayı; örneğin, beş için Roma rakamı (yani "V"). Gösterge Unicode "Nl" (sayı, harf) ile belirtilir. Değer 9'dur.

LineSeparator 12

Metin satırlarını ayırmak için kullanılan karakter. Unicode "Zl" (ayırıcı, çizgi) ile işaret eder. Değer 12'dir.

LowercaseLetter 1

Küçük harf. Unicode "Ll" (harf, küçük harf) ile belirtilir. Değer 1'dir.

MathSymbol 25

"+" veya "= " gibi matematiksel simge karakteri. Unicode "Sm" (sembol, matematik) ile belirtilir. Değer 25'tir.

ModifierLetter 3

Önceki harfin değişikliklerini gösteren serbest duran aralık karakteri olan değiştirici harf karakteri. Unicode "Lm" (harf, değiştirici) ile işaretlenir. Değer 3'dür.

ModifierSymbol 27

Çevresindeki karakterlerin değişikliklerini gösteren değiştirici simge karakteri. Örneğin kesir eğik çizgi, soldaki sayinin payda, sağdaki sayinin payda olduğunu gösterir. Gösterge, Unicode "Sk" (sembol, değiştirici) ile belirtilir. Değer 27'dir.

NonSpacingMark 5

Temel karakterin değişikliklerini gösteren geçirgen olmayan karakter. Unicode "Mn" (işaret, saydam olmayan) olarak işaret eder. Değer 5'tir.

OpenPunctuation 20

Parantez, köşeli ayraç ve ayraç gibi eşleştirilmiş noktalama işaretlerinden birinin açılış karakteri. Unicode "Ps" (noktalama işareti, aç) ile belirtilir. Değer 20'dir.

OtherLetter 4

Büyük harf, küçük harf, büyük harf veya değiştirici harf olmayan harf. Unicode "Lo" (harf, diğer) gösterimiyle belirtilir. Değer 4'dür.

OtherNotAssigned 29

Herhangi bir Unicode kategorisine atanmamış karakter. "Cn" Unicode gösterimiyle (diğer, atanmamış) belirtilir. Değer 29'dur.

OtherNumber 10

Ondalık basamak veya harf sayı olmayan sayı, örneğin kesir 1/2. Gösterge, Unicode "Hayır" (sayı, diğer) olarak belirtilir. Değer 10'dur.

OtherPunctuation 24

Bağlayıcı, tire, açık noktalama işareti, noktalama işaretlerini kapatma, ilk tırnak işareti veya son tırnak olmayan noktalama karakteri. Unicode "Po" (noktalama işareti, diğer) ile işaret eder. Değer 24'dür.

OtherSymbol 28

Matematiksel simge, para birimi simgesi veya değiştirici simge olmayan simge karakteri. Unicode "So" (sembol, diğer) ile belirtilir. Değer 28'dir.

ParagraphSeparator 13

Paragrafları ayırmak için kullanılan karakter. Unicode "Zp" (ayırıcı, paragraf) ile belirtilir. Değer 13'dür.

PrivateUse 17

U+E000 ile U+F8FF aralığında unicode değeri olan özel kullanım karakteri. Unicode "Co" (diğer, özel kullanım) ile belirtilir. Değer 17'dir.

SpaceSeparator 11

Karakter içermeyen ancak bir denetim veya biçim karakteri olmayan boşluk karakteri. Unicode "Zs" (ayırıcı, boşluk) ile işaret eder. Değer 11'dir.

SpacingCombiningMark 6

Bir temel karakterin değişikliklerini gösteren ve bu temel karakter için karakterin genişliğini etkileyen aralık karakteri. Unicode "Mc" (işaretleme, aralık birleştirme) ile belirtilir. Değer 6'dır.

Surrogate 16

Yüksek vekil veya düşük vekil karakter. Vekil kod değerleri U+D800 ile U+DFFF aralığındadır. Unicode "Cs" (diğer, vekil) ataması ile belirtilir. Değer 16'dır.

TitlecaseLetter 2

Başlık harf. Unicode "Lt" (harf, başlık) ile belirtilir. Değer 2'dir.

UppercaseLetter 0

Büyük harf. Unicode "Lu" (harf, büyük harf) ile belirtilir. Değer 0'dır.

Örnekler

Aşağıdaki örnek, UppercaseLetter kategorisindeki karakterler için karakterleri ve karşılık gelen kod noktalarını görüntüler. UppercaseLetter öğesini değişken atamasında ilgilendiğiniz kategoriyle değiştirerek örneği başka bir kategorideki category harfleri görüntüleyecek şekilde değiştirebilirsiniz. Bazı kategoriler için çıkışın kapsamlı olabileceğini unutmayın.

using System;
using System.Globalization;

public class Example
{
   public static void Main()
   {
      int ctr = 0;
      UnicodeCategory category = UnicodeCategory.UppercaseLetter;

      for (ushort codePoint = 0; codePoint < ushort.MaxValue; codePoint++) {
         Char ch = (char)codePoint;

         if (CharUnicodeInfo.GetUnicodeCategory(ch) == category) {
            if (ctr % 5 == 0)
               Console.WriteLine();
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint);
            ctr++;
         }
      }
      Console.WriteLine();
      Console.WriteLine("\n{0} characters are in the {1:G} category",
                        ctr, category);
   }
}
Imports System.Globalization

Module Example
   Public Sub Main()
      Dim ctr As Integer = 0
      Dim category As UnicodeCategory = UnicodeCategory.UppercaseLetter
      
      For codePoint As UShort = 0 To UShort.MaxValue - 1
         Dim ch As Char = Convert.ToChar(codePoint)

         If CharUnicodeInfo.GetUnicodeCategory(ch) = category Then
            If ctr Mod 5 = 0 Then Console.WriteLine()
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint)
            ctr += 1
         End If 
      Next
      Console.WriteLine()
      Console.WriteLine()
      Console.WriteLine("{0} characters are in the {1:G} category", 
                        ctr, category)   
   End Sub
End Module

Açıklamalar

numaralandırmasının UnicodeCategory bir üyesi ve CharUnicodeInfo.GetUnicodeCategory yöntemleri tarafından Char.GetUnicodeCategory döndürülür. Numaralandırma, UnicodeCategory gibi IsUpper(Char)yöntemleri desteklemek Char için de kullanılır. Bu tür yöntemler, belirtilen karakterin belirli bir Unicode genel kategorisinin üyesi olup olmadığını belirler. Unicode genel kategorisi, bir karakterin geniş sınıflandırmasını, yani bir harf türü, ondalık basamak, ayırıcı, matematiksel simge, noktalama vb. olarak tanımlar.

Bu numaralandırma Unicode Standard, sürüm 5.0'ı temel alır. Daha fazla bilgi için Unicode Karakter Veritabanı'ndaki "UCD Dosya Biçimi" ve "Genel Kategori Değerleri" alt konularına bakın.

Unicode Standardı aşağıdakileri tanımlar:

Vekil çift, çiftin ilk biriminin yüksek ve ikincisinin düşük vekil olduğu iki kod birimi dizisini içeren tek bir soyut karakter için kodlanmış karakter gösterimidir. Yüksek vekil, U+D800 ile U+DBFF aralığındaki bir Unicode kod noktasıdır ve düşük vekil U+DC00 ile U+DFFF aralığındaki bir Unicode kod noktasıdır.

Karakter dizisini birleştirme, bir temel karakter ve bir veya daha fazla birleştirme karakterinin birleşimidir. Vekil çift, bir temel karakteri veya birleşen karakteri temsil eder. Birleştirme karakteri aralık veya aralıksız karakterdir. Karakteri birleştiren aralık, işlenirken tek başına bir aralık konumu alır, ancak saydam olmayan bir birleştirme karakteri bunu yapmaz. Aksan işaretleri, karakterleri birleştirmeye yönelik olmayan bir örnektir.

Değiştirici harf, birleşen karakter gibi bir önceki harfin değişikliklerini gösteren serbest duran bir aralık karakteridir.

Kapsayan işaret, önceki tüm karakterleri en çok çevreleyen ve bir temel karakter içeren, bir araya getirilmeyen bir birleştirme karakteridir.

Biçim karakteri, normalde işlenmemiş ancak metnin düzenini veya metin işlemlerinin çalışmasını etkileyen bir karakterdir.

Unicode Standardı, bazı noktalama işaretlerinin çeşitli varyasyonlarını tanımlar. Örneğin, kısa çizgi, kısa çizgiyi temsil eden U+002D (kısa çizgi-eksi) veya U+00AD (yumuşak kısa çizgi) ya da U+2010 (kısa çizgi) veya U+2011 (bölünemez kısa çizgi) gibi çeşitli kod değerlerinden biri olabilir. Aynı durum tireler, boşluk karakterleri ve tırnak işaretleri için de geçerlidir.

Unicode Standardı ayrıca, belirli bir betik veya dile özgü ondalık basamak gösterimlerine de kod atar; örneğin, U+0030 (sıfır basamak) ve U+0660 (Arapça-Hint rakamı sıfır).

Şunlara uygulanır

Ayrıca bkz.