Unicode C, D, KC, KD
tablier
Membre
J'ai voulu utiliser "precomposedStringWithCanonicalMapping" et j'ai trouvé qu'il existe également "precomposedStringWithCompatibilityMapping". Sur le web j'ai même trouvé qu'il existe 4 normalisations unicode qui sont C, D, KC et KD. Par contre je ne trouve pas d'explication sur ces normalisations!
Qui peut me dire de manière simple, quelles sont les différences entre ces normalisations? ou bien ou se trouvent les explications?
Qui peut me dire de manière simple, quelles sont les différences entre ces normalisations? ou bien ou se trouvent les explications?
Connectez-vous ou Inscrivez-vous pour répondre.
Réponses
C'est un début de piste.
http://en.wikipedia.org/wiki/Unicode_normalization (l'article anglais qui est plus détaillé)
C et KC c'est la forme précomposée, par exemple un "à " représenté sous la forme composée est représentée par un unique caractère, le "a accent grave", déjà existant dans la table unicode.
D et KD c'est la forme décomposée, où le caractère de base et les diacritiques sont séparées : par exemple un "à " est représenté sous la forme D par le caractère "a" associé au diacritique "`".
La différence entre C et KC est la même que la différence entre D et KD, le K signifiant qu'on utilise l'équivalence de compatibilité et non l'équivalent canonique des caractères. L'équivalence de compatibilité permet de trouver des caractères "compatibles" pour en remplacer d'autres moins courants, par exemple juste "2" pour le caractère "²", ou "f" suivi de "i" pour le caractère unique préligaturé "ï¬".
Donc precomposedStringWithCanonicalMapping correspond à la forme NFC, et precomposedStringWithCompatibilityMapping correspond à la forme NFKC. (le "NF" devant voulant dire "Normalized Form" je crois, mais bon parfois on l'omet quand on sait qu'on parle de normalisations unicode)
En annexe:
>:( je dois mal me débrouiller pour les mots clef de recherche car je ne trouve JAMAIS les articles que vous m'indiquez à posteriori.