Convertisseur d'Encodage de Texte
Convertissez le texte entre Hex, Binaire, Unicode et plus de formats d'encodage
Détails du caractère
Documentation du Convertisseur d'Encodage
Qu'est-ce que l'encodage de caractères ?
L'encodage de caractères est un système qui associe des caractères à des nombres que les ordinateurs peuvent traiter. Différents schémas d'encodage sont utilisés à différentes fins telles que le stockage, la transmission ou l'affichage de données textuelles. Les encodages courants incluent ASCII, UTF-8, UTF-16, etc.
Formats supportés
Hexadécimal (Hex)
Représentation hexadécimale utilisant les chiffres 0-9 et les lettres A-F. Chaque octet est représenté par deux caractères hex. Largement utilisé en programmation et débogage.
Binaire
Représentation binaire utilisant uniquement 0 et 1. Chaque octet est représenté par 8 bits. C'est la représentation fondamentale des données utilisée par les ordinateurs.
Échappement Unicode
Séquences d'échappement Unicode au format \uXXXX, couramment utilisées dans les langages de programmation comme JavaScript et JSON pour représenter les caractères Unicode.
Entité HTML
Encodage des entités HTML, incluant les entités nommées (comme &) et les entités numériques (comme & ou &). Utilisé pour afficher en toute sécurité les caractères spéciaux en HTML.
Punycode
Schéma d'encodage pour les noms de domaine internationalisés (IDN). Convertit les caractères Unicode en encodage compatible ASCII, préfixé par xn--.
Cas d'utilisation courants
- Afficher la représentation hexadécimale ou binaire des caractères pendant le débogage
- Gérer l'encodage des données dans les protocoles réseau
- Analyser et corriger les problèmes d'encodage (mojibake)
- Utiliser des séquences d'échappement Unicode dans le code
- Gérer les noms de domaine internationalisés (IDN)
- Échappement de caractères en HTML/XML
Ensemble de caractères vs Format d'encodage
L'ensemble de caractères et le format d'encodage sont deux concepts différents. Un ensemble de caractères définit quels caractères sont utilisés dans le texte (comme ASCII, GB2312, GBK, Unicode, etc.), tandis qu'un format d'encodage définit comment ces caractères sont stockés dans un ordinateur (comme UTF-8, UTF-16, etc.). Par exemple, le même texte peut être codé avec l'ensemble de caractères GB2312 comme encodage GB2312, ou avec l'ensemble de caractères Unicode comme UTF-8.
Si vous avez besoin de convertir entre différents ensembles de caractères (comme GBK, UTF-8, ISO-8859-1, etc.) plutôt que simplement de changer le format d'encodage, veuillez utiliser l'outil Convertisseur d'ensemble de caractères.
Questions fréquentes
Quelle est la différence entre l'encodage et le chiffrement ?
L'encodage transforme des données en une autre représentation selon un schéma public — aucune clé secrète n'est impliquée et n'importe qui peut inverser le processus. Le chiffrement brouille les données à l'aide d'une clé secrète, seule la personne possédant cette clé peut les restaurer. Base64 et la notation hexadécimale sont des encodages ; AES et RSA sont des algorithmes de chiffrement.
Pourquoi le texte encodé en Base64 se termine-t-il par = ou == ?
Base64 encode chaque groupe de 3 octets en 4 caractères. Quand la longueur de l'entrée n'est pas un multiple de 3, un ou deux caractères = sont ajoutés en rembourrage pour que la sortie soit un multiple de 4. Un = indique 1 octet de rembourrage ajouté, deux == indiquent 2 octets. Certaines implémentations omettent ce rembourrage — les deux formes sont valides si le décodeur le gère.
Quelle est la différence entre ASCII et Unicode ?
ASCII est un encodage sur 7 bits couvrant 128 caractères (A-Z, 0-9, ponctuation courante). Unicode est un standard de répertoire de caractères couvrant plus de 140 000 caractères dans tous les systèmes d'écriture. UTF-8, UTF-16 et UTF-32 sont différentes façons d'encoder les points de code Unicode en octets — UTF-8 est rétrocompatible avec ASCII pour les 128 premiers points de code.
Quand utiliser l'encodage hexadécimal plutôt que Base64 ?
La notation hexadécimale (Base16) représente chaque octet par deux chiffres hexadécimaux. C'est verbeux mais très lisible pour l'inspection technique — utile pour déboguer des flux d'octets, des clés cryptographiques et des valeurs de protocoles binaires. Base64 est environ 33 % plus compacte et est préférable pour transmettre des données binaires dans JSON, des e-mails ou des URL.
Que signifie la notation U+XXXX pour un point de code Unicode ?
U+XXXX est la notation standard pour un point de code Unicode, où XXXX est un nombre hexadécimal. Par exemple, U+0041 est la majuscule latine A, et U+4E2D est le caractère chinois 中. Les points de code vont de U+0000 à U+10FFFF. Le préfixe U+ a été introduit par le Consortium Unicode pour distinguer les points de code des valeurs d'octets.
Outils Connexes
Convertisseur de Jeu de Caractères
Convertir l'encodage de texte entre UTF-8, GBK, Big5, Shift_JIS, ISO-8859, pages de codes Windows avec détection automatique
Convertisseur de Base
Convertir entre les systèmes binaire, octal, décimal et hexadécimal avec support de bases personnalisées (2-36)
Encodeur/Décodeur URL
Encodez et décodez les URL pour assurer la conformité et la facilité d'utilisation
Encodeur/Décodeur HTML
Convertir les caractères spéciaux en entités HTML avec formats nommés, décimaux et hexadécimaux pour prévenir les attaques XSS
Encodeur/Décodeur Base64
Encodez et décodez rapidement des chaînes Base64, prenant en charge la conversion de texte et de fichiers
Outil d'Échappement/Déséchappe
Échapper et déséchappe les chaînes entre plusieurs formats dont JavaScript, JSON, HTML, XML, CSV, SQL et plus