NormalizationForm Énumération

Définition

Définit le type de normalisation à effectuer.

public enum class NormalizationForm
public enum NormalizationForm
[System.Runtime.InteropServices.ComVisible(true)]
public enum NormalizationForm
type NormalizationForm = 
[<System.Runtime.InteropServices.ComVisible(true)>]
type NormalizationForm = 
Public Enum NormalizationForm
Héritage
NormalizationForm
Attributs

Champs

Nom Valeur Description
FormC 1

Indique qu’une chaîne Unicode est normalisée à l’aide de la décomposition canonique complète, suivie du remplacement des séquences par leurs composites principaux, si possible.

FormD 2

Indique qu’une chaîne Unicode est normalisée à l’aide de la décomposition canonique complète.

FormKC 5

Indique qu’une chaîne Unicode est normalisée à l’aide de la décomposition de compatibilité complète, suivie du remplacement des séquences par leurs composites principaux, si possible.

FormKD 6

Indique qu’une chaîne Unicode est normalisée à l’aide de la décomposition de compatibilité complète.

Remarques

Certaines séquences Unicode sont considérées comme équivalentes, car elles représentent le même caractère. Par exemple, les éléments suivants sont considérés comme équivalents, car l’un de ces éléments peut être utilisé pour représenter « ắ » :

  • « \U1EAF » (LETTRE MINUSCULE LATINE U+1EAF A BREVE ET AIGUË)

  • « \u0103\u0301 » (U+0103 LETTRE MINUSCULE LATINE A BREVE + U+0301 COMBINANT ACCENT AIGU)

  • « \u0061\u0306\u0301 » (U+0061 LETTRE MINUSCULE LATINE A + U+0306 COMBINANT BREVE + U+0301 COMBINANT ACCENT AIGU)

Toutefois, les comparaisons ordinales, c’est-à-dire binaires, considèrent ces séquences différentes, car elles contiennent des valeurs de code Unicode différentes. Avant d’effectuer des comparaisons ordinales, les applications doivent normaliser ces chaînes pour les décomposer en leurs composants de base.

Chaque caractère Unicode composite est mappé à une séquence plus simple d’un ou plusieurs caractères. Le processus de décomposition remplace les caractères composites d’une chaîne par leurs mappages plus simples. Une décomposition complète effectue ce remplacement de manière récursive jusqu’à ce qu’aucun des caractères de la chaîne ne puisse être décomposé.

Unicode définit deux types de décompositions : la décomposition de compatibilité et la décomposition canonique. Dans la décomposition de compatibilité, les informations de mise en forme peuvent être perdues. Dans la décomposition canonique, qui est un sous-ensemble de la décomposition de compatibilité, les informations de mise en forme sont conservées.

Deux jeux de caractères sont considérés comme ayant une équivalence canonique si leurs décompositions canoniques complètes sont identiques. De même, deux ensembles de caractères sont considérés comme ayant une équivalence de compatibilité si leurs décompositions de compatibilité complètes sont identiques.

Pour plus d’informations sur la normalisation, les décompositions et l’équivalence, consultez l’Annexe standard Unicode n° 15 : Formulaires de normalisation Unicode à l’unicode.org.

S’applique à

Voir aussi