Compatibilidad de Unicode con pares suplentes y secuencias de caracteres de combinación

Actualización: noviembre 2007

En el estándar Unicode se define un par suplente como una representación de caracteres codificados para un solo carácter abstracto que consta de una secuencia de dos unidades de código. El primer valor del par suplente es el alto, un valor de código de 16 bits que se encuentra en el intervalo comprendido entre U+D800 y U+DBFF. El segundo valor del par es el suplente bajo, en el intervalo comprendido entre U+DC00 y U+DFFF.

El estándar Unicode define una secuencia de caracteres de combinación como una combinación de un carácter base y uno o varios caracteres combinados. Un par suplente puede representar un carácter base o un carácter combinado. Para obtener más información sobre los pares suplentes y la combinación de secuencias de caracteres, vea el estándar Unicode en la página principal de Unicode.

La cuestión clave que hay que recordar es que los pares suplentes representan caracteres individuales de 32 bits. No puede suponer que un valor de codificación Unicode de 16 bits se asigna exactamente a un carácter. Al utilizar pares suplentes, un sistema codificado Unicode de 16 bits puede hacer referencia a un millón de puntos de código adicionales a los que el estándar Unicode asignará caracteres.

.NET Framework admite elementos de texto. Un elemento de texto es una unidad de texto que se muestra como un solo carácter, denominado grafema. Un elemento de texto puede ser un carácter base, un par suplente o una secuencia de caracteres de combinación. La clase StringInfo proporciona métodos que permiten a la aplicación dividir una cadena en elementos de texto y recorrer en iteración los elementos. Para obtener un ejemplo de cómo utilizar la clase StringInfo, vea Indización de cadenas.

Vea también

Conceptos

Unicode en .NET Framework

Indización de cadenas