CoderTools

Convertisseur d'Encodage de Texte

Convertissez le texte entre Hex, Binaire, Unicode et plus de formats d'encodage

Délimiteur d'octets:
Ajouter un préfixe:

Documentation du Convertisseur d'Encodage

Qu'est-ce que l'encodage de caractères ?

L'encodage de caractères est un système qui associe des caractères à des nombres que les ordinateurs peuvent traiter. Différents schémas d'encodage sont utilisés à différentes fins telles que le stockage, la transmission ou l'affichage de données textuelles. Les encodages courants incluent ASCII, UTF-8, UTF-16, etc.

Formats supportés

Hexadécimal (Hex)

Représentation hexadécimale utilisant les chiffres 0-9 et les lettres A-F. Chaque octet est représenté par deux caractères hex. Largement utilisé en programmation et débogage.

Binaire

Représentation binaire utilisant uniquement 0 et 1. Chaque octet est représenté par 8 bits. C'est la représentation fondamentale des données utilisée par les ordinateurs.

Échappement Unicode

Séquences d'échappement Unicode au format \uXXXX, couramment utilisées dans les langages de programmation comme JavaScript et JSON pour représenter les caractères Unicode.

Entité HTML

Encodage des entités HTML, incluant les entités nommées (comme &) et les entités numériques (comme & ou &). Utilisé pour afficher en toute sécurité les caractères spéciaux en HTML.

Punycode

Schéma d'encodage pour les noms de domaine internationalisés (IDN). Convertit les caractères Unicode en encodage compatible ASCII, préfixé par xn--.

Cas d'utilisation courants

  • Afficher la représentation hexadécimale ou binaire des caractères pendant le débogage
  • Gérer l'encodage des données dans les protocoles réseau
  • Analyser et corriger les problèmes d'encodage (mojibake)
  • Utiliser des séquences d'échappement Unicode dans le code
  • Gérer les noms de domaine internationalisés (IDN)
  • Échappement de caractères en HTML/XML

Ensemble de caractères vs Format d'encodage

L'ensemble de caractères et le format d'encodage sont deux concepts différents. Un ensemble de caractères définit quels caractères sont utilisés dans le texte (comme ASCII, GB2312, GBK, Unicode, etc.), tandis qu'un format d'encodage définit comment ces caractères sont stockés dans un ordinateur (comme UTF-8, UTF-16, etc.). Par exemple, le même texte peut être codé avec l'ensemble de caractères GB2312 comme encodage GB2312, ou avec l'ensemble de caractères Unicode comme UTF-8.

Si vous avez besoin de convertir entre différents ensembles de caractères (comme GBK, UTF-8, ISO-8859-1, etc.) plutôt que simplement de changer le format d'encodage, veuillez utiliser l'outil Convertisseur d'ensemble de caractères.

Questions fréquentes

Quelle est la différence entre l'encodage et le chiffrement ?

L'encodage transforme des données en une autre représentation selon un schéma public — aucune clé secrète n'est impliquée et n'importe qui peut inverser le processus. Le chiffrement brouille les données à l'aide d'une clé secrète, seule la personne possédant cette clé peut les restaurer. Base64 et la notation hexadécimale sont des encodages ; AES et RSA sont des algorithmes de chiffrement.

Pourquoi le texte encodé en Base64 se termine-t-il par = ou == ?

Base64 encode chaque groupe de 3 octets en 4 caractères. Quand la longueur de l'entrée n'est pas un multiple de 3, un ou deux caractères = sont ajoutés en rembourrage pour que la sortie soit un multiple de 4. Un = indique 1 octet de rembourrage ajouté, deux == indiquent 2 octets. Certaines implémentations omettent ce rembourrage — les deux formes sont valides si le décodeur le gère.

Quelle est la différence entre ASCII et Unicode ?

ASCII est un encodage sur 7 bits couvrant 128 caractères (A-Z, 0-9, ponctuation courante). Unicode est un standard de répertoire de caractères couvrant plus de 140 000 caractères dans tous les systèmes d'écriture. UTF-8, UTF-16 et UTF-32 sont différentes façons d'encoder les points de code Unicode en octets — UTF-8 est rétrocompatible avec ASCII pour les 128 premiers points de code.

Quand utiliser l'encodage hexadécimal plutôt que Base64 ?

La notation hexadécimale (Base16) représente chaque octet par deux chiffres hexadécimaux. C'est verbeux mais très lisible pour l'inspection technique — utile pour déboguer des flux d'octets, des clés cryptographiques et des valeurs de protocoles binaires. Base64 est environ 33 % plus compacte et est préférable pour transmettre des données binaires dans JSON, des e-mails ou des URL.

Que signifie la notation U+XXXX pour un point de code Unicode ?

U+XXXX est la notation standard pour un point de code Unicode, où XXXX est un nombre hexadécimal. Par exemple, U+0041 est la majuscule latine A, et U+4E2D est le caractère chinois 中. Les points de code vont de U+0000 à U+10FFFF. Le préfixe U+ a été introduit par le Consortium Unicode pour distinguer les points de code des valeurs d'octets.

Outils Connexes

Menu Rapide

Aucun outil récent