Einzelbyte- und Multibytezeichensätze
Mit dem ASCII-Zeichensatz werden Zeichen im Bereich von 0x00 bis 0x7F definiert. Es gibt viele andere Zeichensätze, in erster Linie europaisch, die die Zeichen innerhalb des Bereichs definieren 0x00 - 0x7F identisch mit dem ASCII-Zeichensatz und auch einen erweiterten Zeichensatz aus 0x80 - 0xFF definieren. Ein 8-Bit-Einzelbyte-Zeichensatz (Single-Byte-Zeichensatz, SBCS) reicht aus, um den ASCII-Zeichensatz und die Zeichensätze für viele europäische Sprachen darzustellen. Einige nicht europäische Zeichensätze, z. B. Japanisch Kanji, enthalten jedoch viele mehr Zeichen als in einem Codierungsschema mit einem Einzelnen Byte dargestellt werden können. Daher ist eine MBCS-Codierung (Multibyte-Zeichensatz) erforderlich.
Hinweis
Viele SBCS-Routinen der Microsoft-Laufzeitbibliothek verarbeiten nach Bedarf Multibytebyte, Zeichen und Zeichenfolgen. Viele Multibyte-Zeichensätze definieren den ASCII-Zeichensatz als Teilmenge. In vielen Multibyte-Zeichensätzen sind die Zeichen im Bereich von 0x00 bis 0x7F mit den gleichwertigen Zeichen des ASCII-Zeichensatzes identisch. Das ein Byte lange Zeichen NULL („\0“) hat z.B. in ASCII- und MBCS-Zeichenfolgen den Wert 0x00 und steht für das abschließende NULL-Zeichen.
Ein Multibyte-Zeichensatz kann aus 1-Byte- und 2-Byte-Zeichen bestehen. Eine Multibyte-Zeichenfolge kann eine Mischung aus Einzelbyte- und Doppelbytezeichen enthalten. Ein 2-Byte-Multibytezeichen verfügt über ein führendes Byte und ein nachfolgendes Byte. In einem bestimmten Mehrbyte-Zeichensatz liegen die führenden Bytes ebenso wie die nachfolgenden Bytes innerhalb eines bestimmten Bereichs. Wenn sich diese Bereiche überlappen, müssen Sie möglicherweise den Kontext auswerten, um zu bestimmen, ob ein bestimmtes Byte als Leadbyte oder als Trailbyte funktioniert.
Siehe auch
Internationalisierung
Universelle C-Laufzeitroutinen nach Kategorie