Unicode-Unterstützung für Ersatzzeichenpaare und Kombinationszeichensequenzen

Aktualisiert: November 2007

Der Unicode-Standard definiert für ein einzelnes abstraktes Zeichen, das aus einer Sequenz von zwei Codeeinheiten besteht, ein Ersatzzeichenpaar als codierte Zeichendarstellung. Der erste Wert des Ersatzzeichenpaars ist das hohe Ersatzzeichen, ein 16-Bit-Codewert im Bereich von U+D800 bis U+DBFF. Der zweite Wert des Ersatzzeichenpaars ist das niedrige Ersatzzeichen im Bereich von U+DC00 bis U+DFFF.

Der Unicode-Standard definiert eine Kombinationszeichensequenz als Kombination aus einem Basiszeichen und einem oder mehreren Kombinationszeichen. Ein Ersatzzeichenpaar kann ein Basiszeichen oder ein Kombinationszeichen darstellen. Weitere Informationen zu Ersatzzeichenpaaren und Kombinationszeichensequenzen finden Sie unter "The Unicode Standard" auf der Unicode-Homepage (nur auf Englisch verfügbar).

Wichtig ist, dass Ersatzzeichenpaare 32-Bit-Einzelzeichen darstellen. Es kann nicht davon ausgegangen werden, dass ein 16-Bit-Unicode-Codierungswert genau einem Zeichen zugeordnet werden kann. Durch die Verwendung von Ersatzzeichenpaaren kann ein mit 16-Bit-Unicode codiertes System eine Million zusätzlicher Codepunkte adressieren, denen durch den Unicode-Standard weitere Zeichen zugewiesen werden können.

.NET Framework unterstützt Textelemente. Ein Textelement ist eine Texteinheit, die als Einzelzeichen angezeigt wird. Textelemente werden auch als Grapheme bezeichnet. Ein Textelement kann ein Basiszeichen, ein Ersatzzeichenpaar oder eine Kombinationssequenz sein. Die StringInfo-Klasse stellt Methoden bereit, mit denen die Anwendung eine Zeichenfolge in ihre Textelemente zerlegen und diese Textelemente durchlaufen kann. Ein Beispiel für die Verwendung der StringInfo-Klasse finden Sie unter Indizierung von Zeichenfolgen.

Siehe auch

Konzepte

Unicode in .NET Framework

Indizierung von Zeichenfolgen