CoderTools

Convertisseur de jeu de caractères

Conversion professionnelle d'encodage avec détection automatique

Caractères en entrée: 0 Octets en entrée: 0
Caractères en sortie: 0 Octets en sortie: 0

Documentation du convertisseur

Qu'est-ce que l'encodage de caractères ?

L'encodage de caractères est un système qui associe les caractères à des nombres (points de code) puis à des octets. Différents encodages utilisent différentes correspondances, c'est pourquoi le texte peut apparaître corrompu s'il est ouvert avec le mauvais encodage.

Guide d'utilisation

Mode conversion de texte

  1. Cliquez sur l'onglet 'Conversion de texte' pour entrer en mode conversion de texte
  2. Sélectionnez l'encodage source dans le menu déroulant, ou utilisez 'Détection auto' pour identifier automatiquement l'encodage
  3. Sélectionnez l'encodage cible (par défaut UTF-8, l'encodage le plus universel)
  4. Choisissez le format d'entrée/sortie : Texte brut, Base64, Hex, ou format tableau C/C++
  5. Entrez ou collez votre texte, puis cliquez sur 'Convertir'. Utilisez 'Copier' pour copier le résultat ou 'Télécharger' pour sauvegarder

Mode conversion de fichiers

  1. Cliquez sur l'onglet 'Conversion de fichiers' pour entrer en mode fichier
  2. Glissez-déposez les fichiers dans la zone ou cliquez pour sélectionner (plusieurs fichiers supportés, max 10 Mo chacun)
  3. Le système détecte automatiquement l'encodage de chaque fichier, affiché dans la colonne 'Encodage source'. Vous pouvez modifier manuellement si nécessaire
  4. Sélectionnez l'encodage cible pour tous les fichiers
  5. Cliquez sur 'Tout convertir' pour convertir, puis 'Tout télécharger' pour sauvegarder les fichiers convertis

Formats d'entrée/sortie supportés

  • Texte brut - Contenu texte normal, entrée directe ou collé
  • Base64 - Chaîne encodée en Base64, couramment utilisée dans les pièces jointes email et URLs de données
  • Hex - Octets hexadécimaux continus, ex: 48656C6C6F
  • Hex avec espaces - Octets hexadécimaux séparés par des espaces, ex: 48 65 6C 6C 6F
  • Tableau C/C++ - Format tableau d'octets style C/C++, ex: 0x48,0x65,0x6C,0x6C,0x6F

Cas d'utilisation courants

Corriger le texte corrompu

Lorsque vous recevez des fichiers texte ou emails corrompus, utilisez cet outil pour convertir de l'encodage original vers le bon pour restaurer le contenu lisible.

Migration de base de données

Lors de la migration de données entre différents systèmes de base de données ou serveurs, utilisez cet outil pour assurer la cohérence de l'encodage et prévenir la corruption.

Développement web

Convertissez les pages web héritées en encodage UTF-8 pour assurer un affichage correct sur les navigateurs modernes et différentes plateformes.

Partage de fichiers multiplateforme

Convertissez les fichiers entre systèmes Windows (GBK), macOS et Linux pour assurer un affichage correct du texte sur toutes les plateformes.

Conseils

  • Utilisez la détection auto si vous n'êtes pas sûr de l'encodage source
  • Activez la vue hex pour voir les valeurs d'octets réelles
  • Ajoutez BOM pour les fichiers UTF-8/UTF-16 utilisés sur Windows
  • Pour la conversion par lots, utilisez l'onglet Fichiers
  • Lors de la conversion entre encodages, certains caractères peuvent ne pas exister dans l'encodage cible et seront remplacés par '?' ou similaire

Référence des encodages supportés

Cet outil prend en charge plus de 30 encodages de caractères couvrant les principales langues et régions du monde. Voici une référence détaillée pour chaque encodage supporté.

Encodages Unicode

Encodage Description Plage d'octets Spécification
UTF-8 Encodage Unicode à longueur variable, le plus utilisé sur le web. Rétrocompatible avec ASCII. 1-4 bytes RFC 3629
UTF-16 LE UTF-16 Little Endian, couramment utilisé sur les systèmes Windows. Utilise 2 ou 4 octets par caractère. 2/4 bytes RFC 2781
UTF-16 BE UTF-16 Big Endian, utilisé dans certains protocoles réseau et Java. Utilise 2 ou 4 octets par caractère. 2/4 bytes RFC 2781

Encodages chinois

Encodage Description Utilisation Spécification
GBK Extension de GB2312, supporte 21 003 caractères chinois incluant les caractères traditionnels. Courant sur Windows en chinois simplifié. Windows chinois simplifié, anciens sites web IANA GBK
GB2312 Norme nationale chinoise originale (1980), supporte 6 763 caractères chinois simplifiés et 682 symboles. Systèmes hérités, emails GB 2312-1980
GB18030 Dernière norme nationale chinoise, obligatoire en Chine. Supporte tous les caractères Unicode incluant les langues minoritaires. Systèmes chinois modernes, documents officiels GB 18030-2005
Big5 Encodage chinois traditionnel, principalement utilisé à Taïwan et Hong Kong. Contient 13 060 caractères traditionnels. Sites web de Taïwan, Hong Kong IANA Charset

Encodages japonais

Encodage Description Utilisation Spécification
Shift_JIS Encodage japonais de Microsoft, supporte les jeux de caractères JIS X 0201 et JIS X 0208. Windows, anciens sites web, jeux vidéo IANA Charset
EUC-JP Extended Unix Code pour le japonais, encodage à longueur variable compatible avec ASCII. Systèmes Unix/Linux, anciens sites web IANA Charset
ISO-2022-JP Encodage japonais 7 bits utilisant des séquences d'échappement. Aussi appelé encodage JIS. Emails japonais, anciens systèmes RFC 1468

Encodages coréens

Encodage Description Utilisation Spécification
EUC-KR Extended Unix Code pour le coréen, basé sur la norme KS X 1001. Supporte 8 822 caractères coréens (Hangul + Hanja). Sites web coréens, systèmes hérités RFC 1557

Encodages d'Europe occidentale

Encodage Description Langues Spécification
ISO-8859-1 Aussi connu sous le nom Latin-1, première partie de la série ISO-8859. Couvre 191 caractères des langues d'Europe occidentale. Anglais, français, allemand, espagnol, portugais, italien ISO/IEC 8859-1
ISO-8859-15 Latin-9, met à jour Latin-1 avec le signe Euro (€) et des caractères français/finnois supplémentaires. Langues d'Europe occidentale avec symbole Euro ISO/IEC 8859-15
Windows-1252 Extension de Microsoft à Latin-1, ajoute des caractères typographiques comme les guillemets et tirets. Langues d'Europe occidentale sous Windows Unicode.org

Encodages cyrilliques

Encodage Description Langues Spécification
Windows-1251 Encodage cyrillique de Microsoft pour Windows, supporte le russe et autres langues à base cyrillique. Russe, ukrainien, bulgare, serbe Unicode.org
KOI8-R Encodage cyrillique 8 bits, conçu pour le russe. Les caractères restent lisibles même si le bit de poids fort est supprimé. Russe RFC 1489
ISO-8859-5 Encodage cyrillique standard ISO, fait partie de la série ISO-8859. Supporte les caractères cyrilliques de base. Russe, bulgare, macédonien, serbe ISO/IEC 8859-5

Autres encodages

Encodage Description Utilisation Spécification
ASCII American Standard Code for Information Interchange, la base de la plupart des encodages modernes. Encodage 7 bits avec 128 caractères. Texte anglais de base, programmation RFC 20
Macintosh Encodage de caractères original d'Apple pour Mac OS Classic, aussi connu sous le nom Mac Roman. Anciens fichiers Mac, anciennes applications Mac Unicode.org

Outils Connexes