L'UNICODE 
la liste entière est divisée en tableaux correspondant à une rangée du plan multilingue de base de l'ISO 10646, soit au plus 256 caractères.
Rangée 00 : latin de base et supplément Latin-1
Rangée 01 : latin étendu A et latin étendu B (partie)
Rangée 02 : latin étendu B (fin), alphabet phonétique et modificateurs de lettres
Rangée 03 : signes diacritiques jonctifs, grec, copte et symboles grecs
Rangée 04 : cyrillique
Rangée 05 : arménien et hébreu
Rangée 06 : arabe
Rangées 07 et 08 : inutilisées
Rangée 09 : devanâgari et bengali
Rangée 0A : pendjabi et goudjarati
Rangée 0B : oriya et tamoul
Rangée 0C : télougou et kannara
Rangée 0D : malayalam
Rangée 0E : thaï et lao
Rangée 0F : inutilisée
Rangée 10 : géorgien
Rangée 11 : jamos hangûl
Rangées 12 à 1D : inutilisées
Rangée 1E : latin étendu additionnel
Rangée 1F : grec étendu
Rangée 20 : ponctuation générale, exposants et indices, symboles monétaires et signes diacritiques jonctifs pour symboles
Rangée 21 : symboles de type lettre, formes numériques et flèches
Rangée 22 : opérateurs mathématiques
Rangée 23 : signes techniques divers
Rangée 24 : pictogrammes de commande, reconnaissance optique de caractères et alphanumériques encerclés
Rangée 25 : filets, pavés et formes géométriques
Rangée 26 : symboles divers
Rangée 27 : casseau
Rangées 28 à 2F : inutilisées
Rangée 30 : symboles et ponctuation CJC, hiragana et katakana
Rangée 31 : bopomofo, jamos de compatibilité hangûl et divers CJC
Rangée 32 : lettres et mois CJC encerclés
Rangée 33 : compatibilité CJC
Rangées 34 à 4D : inutilisées (anciennement hangûl)
Rangées 4E à 9F : idéogrammes unifiés CJC
Rangées A0 à AB : inutilisées
Rangées AC à D7 : hangûl
Rangées D8 à DF : réservées pour UTF-16
Rangées E0 à F8 : zone à usage privé
Rangées F9 à FA : formes de compatibilité CJC
Rangées FB à FD : formes de présentation alphabétiques et formes de présentation arabes-A
Rangée FE : demi-signes jonctifs, formes de compatibilité CJC, petites variantes de forme et formes de présentation arabes-B
Rangée FF : formes de demi et pleine chasse et caractères spéciaux

ISO 10646-1 - UNICODE

  • La norme ISO/IEC 10646 réunit tous les alphabets de la planète en utilisant 32 bits par caractères.
  • Du fait que, pour l'instant, toutes les valeurs utilisées dans la norme ISO/IEC 10646 tiennent sur 16 bits, la norme Unicode a été introduite, qui reprend les mêmes valeurs que la norme ISO/IEC 10646, mais en ne gardant que les 16 bits effectivement utilisés.
  • La norme Unicode définit un jeu de caractères sur 16 bits contenant la plupart des alphabets de la planète: UCS-2 (Unicode Character Set 2)
  • La norme Unicode définit donc une valeur numérique sur 16 bits pour chaque caractère de la plupart des alphabets connus. Pour archiver des textes dans des fichiers, on peut donc soit systématiquement utiliser deux octets par caractères, soit utiliser un encodage qui emploira un nombre variable d'octets par caractère.
  • Pour les applications traitant des caractères sur 8 (voire 7) bits, divers formats de transformation de jeux de caractères Unicode en séquences d'octets ont été définis.
  • UTF-8 est un des format de transformation de caractères UCS-2 en séquences d'octets de longueur variable (variant entre 1 et 6 octets).
  • UTF-8 a pour caractéristique de préserver le jeu de caractères ASCII: tous les caractères du code ASCII sont codés sur un seul octet dont la valeur est celle du code ASCII. De plus, seuls les caractères du code ASCII utilisent des octets dont la valeur correspond à un code ASCII. Les caractères ASCII sont donc faciles à repérer.

RETOUR