Représenter un texte en utilisant différents encodages
- Fiche de cours
- Quiz
- Profs en ligne
- Videos
- Application mobile
Comprendre la représentation d’un texte en machine.
Pour représenter un texte, on utilise différents encodages : l’ASCII qui est plus ancien et limité, et l’Unicode qui permet d’encoder pratiquement tous les glyphes.
- Codage sur 8 bits ou plus
- Conversion binaire/décimal
Les caractères sont des symboles alphanumériques : majuscules, minuscules, chiffres, ponctuation, caractères spéciaux, etc. À chaque caractère correspond un nombre en binaire.
En 1960, on normalise l’écriture avec l’ASCII de base (American Standard Code for Information Interchange), prononcé « aski ». À chaque caractère est associé un binaire sur 7 bits. Il y a donc 27 = 128 caractères numérotés de 010 à 12710 et codés en binaire de 00000002 à 11111112.
Table ASCII
P en ASCII : 10100002. En effet, les 3 premiers bits sont donnés par le numéro de colonne associé à P, c’est-à-dire 101, puis les quatre autres bits sont donnés par le numéro de la ligne, ici 0000.
Le code ASCII de P en décimal vaut 8010.
Le code ASCII utilisant 7 bits, il faudra souvent rajouter à gauche un huitième bit égal à 0 pour pouvoir écrire le caractère sur 1 octet (8 bits). Pour ajouter les accents, on utilise le 8e bit dans l’ASCII étendu.
Beaucoup de langues n’utilisent pas l’alphabet latin, ce qui cause beaucoup de problèmes (par exemple les glyphes des alphabets russes ou arabes). Une nouvelle norme a donc été créée en 1991 : l’Unicode.
Le but est de rassembler tous les caractères existants, la table Unicode contient donc près de 150 000 caractères. Le codage de cette table est multiple.
Le codage le plus utilisé est l’UTF-8 qui fonctionne sur le principe suivant.
Principe du codage UTF-8
- Les caractères « classiques » sont codés sur 1 octet.
- Les caractères moins classiques, plus rares, sont codés sur un nombre variable d’octets (2, 3 ou 4).
Les 128 premiers caractères de la table UTF-8 sont compatibles avec le codage ASCII. Les caractères simples Unicode codés avec UTF-8 ont exactement le même code que les mêmes caractères en ASCII.
Il est important, quand on veut décoder un texte, de savoir quel est le codage utilisé, sinon le message risque d’être incompréhensible.
Vous avez obtenu75%de bonnes réponses !