CoderTools

Convertidor de juego de caracteres

Conversión profesional de codificación con detección automática

Caracteres de entrada: 0 Bytes de entrada: 0
Caracteres de salida: 0 Bytes de salida: 0

Documentación del convertidor

¿Qué es la codificación de caracteres?

La codificación de caracteres es un sistema que mapea caracteres a números (puntos de código) y luego a bytes. Diferentes codificaciones usan diferentes mapeos, por eso el texto puede aparecer corrupto cuando se abre con la codificación incorrecta.

Guía de uso

Modo conversión de texto

  1. Haga clic en la pestaña 'Conversión de texto' para entrar en modo conversión de texto
  2. Seleccione la codificación origen del menú desplegable, o use 'Auto detectar' para identificar automáticamente la codificación
  3. Seleccione la codificación destino (por defecto UTF-8, la codificación más universal)
  4. Elija el formato de entrada/salida: Texto plano, Base64, Hex, o formato array C/C++
  5. Ingrese o pegue su texto, luego haga clic en 'Convertir'. Use 'Copiar' para copiar el resultado o 'Descargar' para guardar

Modo conversión de archivos

  1. Haga clic en la pestaña 'Conversión de archivos' para entrar en modo archivo
  2. Arrastre y suelte archivos en el área de carga, o haga clic para seleccionar (soporta múltiples archivos, máx 10 MB cada uno)
  3. El sistema detectará automáticamente la codificación de cada archivo, mostrada en la columna 'Codificación origen'. Puede modificar manualmente si es necesario
  4. Seleccione la codificación destino para todos los archivos
  5. Haga clic en 'Convertir todo' para convertir, luego 'Descargar todo' para guardar los archivos convertidos

Formatos de entrada/salida soportados

  • Texto plano - Contenido de texto normal, entrada directa o pegado
  • Base64 - Cadena codificada en Base64, comúnmente usada en adjuntos de email y URLs de datos
  • Hex - Bytes hexadecimales continuos, ej: 48656C6C6F
  • Hex con espacios - Bytes hexadecimales separados por espacios, ej: 48 65 6C 6C 6F
  • Array C/C++ - Formato array de bytes estilo C/C++, ej: 0x48,0x65,0x6C,0x6C,0x6F

Casos de uso comunes

Corregir texto corrupto

Cuando reciba archivos de texto o emails corruptos, use esta herramienta para convertir de la codificación original a la correcta para restaurar el contenido legible.

Migración de base de datos

Al migrar datos entre diferentes sistemas de base de datos o servidores, use esta herramienta para asegurar la consistencia de la codificación y prevenir la corrupción de datos.

Desarrollo web

Convierta páginas web heredadas a codificación UTF-8 para asegurar una visualización correcta en navegadores modernos y diferentes plataformas.

Compartir archivos multiplataforma

Convierta archivos entre sistemas Windows (GBK), macOS y Linux para asegurar que el texto se muestre correctamente en todas las plataformas.

Consejos

  • Use detección automática cuando no esté seguro de la codificación origen
  • Active la vista hex para ver los valores de bytes reales
  • Agregue BOM para archivos UTF-8/UTF-16 que se usarán en Windows
  • Para conversión por lotes, use la pestaña de archivos
  • Al convertir entre codificaciones, algunos caracteres pueden no existir en la codificación destino y serán reemplazados por '?' o similar

Referencia de codificaciones soportadas

Esta herramienta soporta más de 30 codificaciones de caracteres que cubren los principales idiomas y regiones del mundo. A continuación se presenta una referencia detallada para cada codificación soportada.

Codificaciones Unicode

Codificación Descripción Rango de bytes Especificación
UTF-8 Codificación Unicode de longitud variable, la más utilizada en la web. Compatible con ASCII. 1-4 bytes RFC 3629
UTF-16 LE UTF-16 Little Endian, comúnmente usado en sistemas Windows. Usa 2 o 4 bytes por carácter. 2/4 bytes RFC 2781
UTF-16 BE UTF-16 Big Endian, usado en algunos protocolos de red y Java. Usa 2 o 4 bytes por carácter. 2/4 bytes RFC 2781

Codificaciones chinas

Codificación Descripción Uso Especificación
GBK Extensión de GB2312, soporta 21,003 caracteres chinos incluyendo caracteres tradicionales. Común en Windows chino simplificado. Windows chino simplificado, sitios web antiguos IANA GBK
GB2312 Estándar nacional chino original (1980), soporta 6,763 caracteres chinos simplificados y 682 símbolos. Sistemas heredados, correos electrónicos GB 2312-1980
GB18030 Último estándar nacional chino, obligatorio en China. Soporta todos los caracteres Unicode incluyendo lenguas minoritarias. Sistemas chinos modernos, documentos gubernamentales GB 18030-2005
Big5 Codificación de chino tradicional, principalmente usada en Taiwán y Hong Kong. Contiene 13,060 caracteres tradicionales. Sitios web de Taiwán, Hong Kong IANA Charset

Codificaciones japonesas

Codificación Descripción Uso Especificación
Shift_JIS Codificación japonesa de Microsoft, soporta los conjuntos de caracteres JIS X 0201 y JIS X 0208. Windows, sitios web antiguos, videojuegos IANA Charset
EUC-JP Extended Unix Code para japonés, codificación de longitud variable compatible con ASCII. Sistemas Unix/Linux, sitios web antiguos IANA Charset
ISO-2022-JP Codificación japonesa de 7 bits usando secuencias de escape. También conocida como codificación JIS. Correos japoneses, sistemas antiguos RFC 1468

Codificaciones coreanas

Codificación Descripción Uso Especificación
EUC-KR Extended Unix Code para coreano, basado en el estándar KS X 1001. Soporta 8,822 caracteres coreanos (Hangul + Hanja). Sitios web coreanos, sistemas heredados RFC 1557

Codificaciones de Europa occidental

Codificación Descripción Idiomas Especificación
ISO-8859-1 También conocido como Latin-1, primera parte de la serie ISO-8859. Cubre 191 caracteres de idiomas de Europa occidental. Inglés, francés, alemán, español, portugués, italiano ISO/IEC 8859-1
ISO-8859-15 Latin-9, actualiza Latin-1 con el símbolo del Euro (€) y caracteres adicionales franceses/finlandeses. Idiomas de Europa occidental con símbolo del Euro ISO/IEC 8859-15
Windows-1252 Extensión de Microsoft a Latin-1, añade caracteres tipográficos como comillas y guiones. Idiomas de Europa occidental en Windows Unicode.org

Codificaciones cirílicas

Codificación Descripción Idiomas Especificación
Windows-1251 Codificación cirílica de Microsoft para Windows, soporta ruso y otros idiomas basados en cirílico. Ruso, ucraniano, búlgaro, serbio Unicode.org
KOI8-R Codificación cirílica de 8 bits, diseñada para ruso. Los caracteres son legibles incluso si se elimina el bit alto. Ruso RFC 1489
ISO-8859-5 Codificación cirílica estándar ISO, parte de la serie ISO-8859. Soporta caracteres cirílicos básicos. Ruso, búlgaro, macedonio, serbio ISO/IEC 8859-5

Otras codificaciones

Codificación Descripción Uso Especificación
ASCII American Standard Code for Information Interchange, la base de la mayoría de las codificaciones modernas. Codificación de 7 bits con 128 caracteres. Texto inglés básico, programación RFC 20
Macintosh Codificación de caracteres original de Apple para Mac OS Classic, también conocida como Mac Roman. Archivos Mac antiguos, aplicaciones Mac antiguas Unicode.org

Herramientas Relacionadas