UTF-8 et Unicode

UNICODE et son codage UTF-8 permettent l’utilisation de tous les caractères (accentués ou non, pictogrammes, idéogramme ou émoticones) dans les chaines et s’imposent de ce fait de plus en plus sur les pages Internet et dans les langages de programmation. Ces caractères n’apparaissent bien sûr que dans la mesure où ils sont pris en compte par une police de caractères installé sur votre système.

Cette page suit les recommandations de 1990 pour une orthographe réformée.

UTF-8 et Unicode sont parfois confondus, mais il s’agit de deux choses distinctes :

Unicode attribue un point de code (un numéro d’ordre) à chaque caractère typographique ;
UTF-8 (Universal Character Set Transformation Format, 8bits) est une façon d’encoder chaque point de code en une chaine d’un à quatre octets.

L’encodage est donc variable et dépend de la valeur du point de code :

un seul octet est nécessaire pour le code ASCII de 0 à 127, pris tels quels. UTF-8 est donc ASCII compatible ;
deux octets sont nécessaires pour les lettres latines accentuées et de nombreux alphabets (ou abjads) non latins. Notons que plusieurs d'entre eux peuvent être codés par un seul octet avec la norme ISO8859 ;
les caractères spéciaux (mathématiques, semi-graphiques…) et les systèmes idéographiques actuels sont codés sur trois octets, ces derniers étant codés sur deux octets avec les normes ISO2022, GBK, Big5, JIS ;
les écritures antiques (hiéroglyphes, cunéiformes…) et les émoticones sont codés sur quatre octets.

Équivalences hexadécimal / binaire

0 = 0000
1 = 0001
2 = 0010
3 = 0011

4 = 0100
5 = 0101
6 = 0110
7 = 0111

8 = 1000
9 = 1001
A = 1010
B = 1011

C = 1100
D = 1101
E = 1110
F = 1111

Notes

les chiffres 0 à 9 sont communs aux bases décimales et hexadécimales ; les lettres A à F représentent les valeurs décimales 10 à 15.
un octet est composé de huit bits, soit deux chiffres hexadécimaux. 0b01101010 = x6A = 106 (6 *16 +10).

Encodages UTF-8

Avec la convention des lettres a à u pouvant valoir 0 ou 1, voici les quatre formes d’encodage :

1. `0abcdefg`

Tout octet dont le bit le plus fort est nul (donc inférieur à 128) code nécessairement un caractère ASCII. Les sept lettres valant 0 ou 1 : 2⁷ =128 caractères, bien que la plupart des octets inférieurs à 32 ne soient pas utilisés dans les simples textes, qu’il s’agisse de page HTML ou des chaines de caractères dans la plupart des langages de programmation.

Les caractères ASCII, dont les points de code sont inférieurs à 128, sont repris tels quels dans le codage UTF-8.

2. `110abcde 10fghijk`

Si le point de code dépasse 127, le caractère doit être codé sur au moins deux octets. Sous forme binaire,

le premier octet commence nécessairement par 110, soit les quartets 12 ou 13 (0xC ou 0xD en hexadécimal) ;
le second octet commence par 10, soit les chiffres hexadécimaux 0x8, 0x9, 0xA ou 0xB.

Cette formule peut théoriquement coder 2¹¹ =2 048 caractères sauf les 128 premiers, déjà codés sur un seul octet.

Le premier octet ne peut valoir 0xC0 ni 0xC1, car deux octets de la forme 11000000 10abcdef coderaient les caractère ASCII de 0 à 63 et 11000001 10abcdef ceux de 64 à 127).

Le second octet commence immanquablement par le bit de poids fort de 1 et le second de 0, soit les valeurs entre 128 et 191. Tout autre octet ne peut servir à coder un point de code valable. De ce fait, un texte sauvegardé en latin1 ou cp1252 n’est pas entièrement lu dans un environnement UTF-8, et chaque octet non compatible UTF-8 est souvent affiché �. Cette remarque vaut pour les points suivants.

Les points de codes 128-2047, convertis en deux octets, servent à coder les caractères latins accentués, l’alphabet de prononciation international, et de très nombreux alphabets.

3. `1110abcd 10efghij 10klmnop`

À partir du point de code 2048, trois octets sont nécessaires, dont le premier qui commence nécessairement par 1110, soit le quartet 14 (en hexadécimal 0xE). Les deux octets qui suivent commencent également par 10. La couverture théorique de points de code est de 2¹⁶ =65.536 caractères. Les 2048 premiers points de code ne sont bien entendu pas concernés par la transformation en trois octets.

Les points de codes 2048-65535 convertis en trois octets sert à coder quelques alphabet plus rares ou en quelques compléments (le grec polytonique), de nombreux symboles mathématiques, à la ponctuation typographique, aux caractères semi-graphiques, aux dingbats et aux idéogrammes orientaux.

4. `11110abc 10defghi 10jklmno 10pqrstu`

le codage UTF8 utilise quatre octets pour les caractères dont le point de code dépasse 65 535. Le premier commence nécessairement par un quartet égal à 15 (0xF en hexadécimal), le deuxième quartet étant inférieur à 8. Les trois octets suivants commencent tous par 10. Le nombre théorique de caractères codés sur quatre octets est de 2²¹ =2 097 152.

Les caractères codés en quatre octets concernent en général des écritures anciennes (le cunéiforme, les hiéroglyphes) ou les émoticones en couleurs. Certains serveurs SQL ne les gèrent pas.

Et ensuite ?

Il ne serait pas impossible de coder sur cinq octets (26 bits codables, 67 108 864 caractères), voire six (31, 2 147 483 648), mais la norme prévoit quatre octets maximum.

Discussion

Le format UTF-8 est pratique pour les programmeurs : aucun sous-ensemble d'une suite octets codant un caractère ne code pour un autre caractère. Par exemple, si un caractère est codé avec une suite de quatre octets WXYZ, aucun autre caractère n’est codé par les octets W, X, Y ou Z ; les paires WX, XY ou YZ ou les triplets WXY ou XYZ. Cela permet des remplacements de séquences d’octets représentant des caractères unicode en étant sûr de ne pas en altérer d’autres. Mais actuellement, les langages de programmation manipulent eux-mêmes les chaines UTF-8 ou disposent de bibliothèque pour ce faire.

La lettre U (point de code 85, 0x55 en hexadécimal) est codée 01010101. Elle pourrait théoriquement être codée sur deux octets 11000001 10010101. Ce n’est pas permis, toutes les possibilités théoriques vues ci-dessus ne sont donc pas légales.

Sauf pour les textes codés uniquement en ASCII (inférieur à 128, sans diacritique), le codage d'un texte français utilise nécessairement des signes typographiques utilisant deux, voire trois octets. Le codage UTF-8 d’un fichier-texte en français compte environ 6% d’octets de plus d'un caractère, les lettres accentuées prenant deux octets, certains signes typographiques (diffrentes sortes de tiret, puces…) en valant trois.

En cyrillique, arabe, grec monotonique, hébreu et turc, le codage en UTF-8 prendra systématiquement deux octets (trois pour le thaï), alors que les codages iso8859-5, -6, -7, -8, -9 et -11 n'utilise qu’un octet.

De la même manière, les encodages spécifiques aux idéogrammes (ISO2022, GBK, Big5, JIS) prennent deux octets par signe, mais trois en UTF-8.

Les codages non UTF-8 peuvent donc rester pertinents pour les alphabets non latins ou des textes en idéogrammes. C’est moins vrai pour les documents compressés comme ODT, ODS, XLSX ou DOCX.

Vous trouverez sur ce site un tableau Unicode/UTF/HTML (1,2Mo) assez complet, ainsi que les idéogrammes CJK (javascript, l’affichage n’est pas immédiat). Il est également question d’Unicode/UTF-8 sur la page python ; pour un codage d’un octet par caractère d’une dizaine d’alphabets, voir ISO8859.

Doublets Unicode

Certains caractères identiques ou très proches disposent de deux codages différents. Par exemple :

les lettres latines A B E H I K M N O o P T X Y Z ne sont pas distinctes des grecques Α Β Ε Η Ι Κ Μ Ν Ο ο Ρ Τ Χ Υ Ζ (aucune police gérant les caractères grecs ne semble les distinguer, même IFAO Grec Unicode – pas essayé avec les fontes Microsoft). Elles sont cependant codées différemment ;
le signe µ (µ) des claviers QWERTY / AZERTY a pour point de code 181, la lettre grecque μ (μ) le 956. Plusieurs polices les distinguent cependant ;
les voyelles «with tonos» du grec moderne άέήίόύώ (points de code 940 à 943 et 972 à 974, lettres codées en UTF-8 sur deux octets) sont doublées par les voyelles «with oxia» du grec polytonique άέήίόύώ (points de code impairs de 8049 à 8061, lettres codées en UTF-8 sur trois octets). L’encodage Betacode préconise l’utilisation des points de codes 940-943 et 972 à 974 ; le clavier polytonique du Mate-Desktop et le convertisseur de betacode de perseid.org utilisent les mêmes points de code, codés en deux octets. C'est très important parce que les langages de programmation distinguent les accents du grec monotonique des voyelles avec oxia du grec ancien.

En pratique

Les octets du début d’un codage UTF-8 peuvent facilement être repérés dans un éditeur hexadécimal, commençant par :

moins de 8_ pour les octets codant un caractère ASCII (< 128) : 0x20 code l’espace et 0x0A la fin de ligne (0x0C0A pour Windows et Atari, 0x0C pour MacOS9 et Amiga)
F_ pour les «4 octets» (le chiffre hexadécimal qui suit est inférieur à 8)
E_ pour les «3 octets»
C_ ou D_ pour les «2 octets»
8_, 9_, A_ ou B_ pour tout octet qui complète le codage en deux, trois ou quatre octets.

Voici comme se code en UTF-8 la phrase : Ça c’est 25€ 𝄞 (chaque paire de chiffres hexadécimaux représente un octet, d’une valeur de 0 à 255).

C3 87 61 20 63 E2 80 99 65 73 74 20 32 35 E2 82 AC 20 F0 9D 84 9E 0A
Ç     a     c  ’        e  s  t     2  5  €           𝄞

Retrouver le point de code à partir du codage UTF-8

C387 représente deux octets, écrit sous forme binaire 1100'0011 1000'0111

1100'0011 1000'0111 donne le binaire 1100'0111, soit C7 ou 199, à savoir le point de code pour Ç

De la même manière, F0 9D 84 9E s’écrit en binaire 1111'0000 1001'1101 1000';0100 1001';1110.

On en extrait 000 011101 000100 011110, soit le binaire 1'1101 0001’0001'1110, l’hexadécimal 0x1D11E ou le décimal 119070, le point de code pour la clé de sol 𝄞.

Coder un point de code en UTF-8

Le symbole € (EUR) a pour point de code 8364, soit 20AC en hexadécimal, et en binaire:

0010'0000 1010'1100 a plus de sept chiffres binaires significatifs, on isole les six derniers ;
10000010 [101100] a plus de cinq chiffres binaires, on isole les six ;
10 [000010 101100] a moins de cinq chiffres binaires, on les laisse comme cela
la séparation donne les trois groupes de chiffres binaires 10, 000010 et 101100 ; on préfixe le premier avec 1110, les suivants avec 10 ;
la séparation donne 11100010 10000010 10101100, soit E2 82 AC en hexadécimal.

Octets utilisés en UTF-8

Seuls 220 octets sont utilisés / acceptés par l’encodage UTF-8 :

le code ASCII utilise les caractères de formatage 9 à 13, les latines sans diacritique, la ponctuation, les chiffres et les opérateurs de 32 à 127 ;
les octets 10abcdef de complément peuvent valoir de 128 à 191 ;
le premier octet 110abcde d’un encodage sur deux octets peut valoir de 192 à 223 ;
le premier octet 1110abcd d’un encodage sur trois octets peut valoir de 224 à 239 ;
l’octet 11110abc qui débute un encodage sur quatre octets peut valoir de 240 à 247 ;

Sont donc utilisés les octets 32 à 247 et les caractères de formatage 9 (tab, \t), 10 (nouvelle ligne en Unix et OSX, \n), 11 (tab vert, \v), 12 (fin de page, \f) et 13 (fin de paragraphe Amiga et Mac avant OSX, \r) ; Les systèmes issus de Digital Research (DOS et Atari) utilisent 13+10 (\r\n).

`unicode`

La commande unicode (en tout cas en Unix, à installer en GNU/Linux Debian) donne les indications sur le caractère selon son point de code en hexadécimal, unicode -d dddd pour le décimal :

$ unicode 00e8

U+00E8 LATIN SMALL LETTER E WITH GRAVE
UTF-8: c3 a8 UTF-16BE: 00e8 Decimal: &#232; Octal: \0350
è (È)
Uppercase: 00C8
Category: Ll (Letter, Lowercase); East Asian width: A (ambiguous)
Unicode block: 0080..00FF; Latin-1 Supplement
Bidi: L (Left-to-Right)

Decomposition: 0065 0300

unicode -s C donne les indications sur le Caractère exprimé
unicode x241..x443 donne les caractères par carte entière de 256 caractères, en l'occurence de trois cartes de x200 à x4ff (-d pour une notation décimale)