Convertidor de juego de caracteres
Conversión profesional de codificación con detección automática
Salida hexadecimal
Arrastre archivos aquí o haga clic para seleccionar
Múltiples archivos soportados (Los archivos grandes pueden afectar el rendimiento)
Detección automática o selección manual de codificación para archivos subidos
Archivos seleccionados
| Nombre del archivo | Tamaño | Codificación origen | Vista previa | Estado |
|---|
Documentación del convertidor
¿Qué es la codificación de caracteres?
La codificación de caracteres es un sistema que mapea caracteres a números (puntos de código) y luego a bytes. Diferentes codificaciones usan diferentes mapeos, por eso el texto puede aparecer corrupto cuando se abre con la codificación incorrecta.
Guía de uso
Modo conversión de texto
- Haga clic en la pestaña 'Conversión de texto' para entrar en modo conversión de texto
- Seleccione la codificación origen del menú desplegable, o use 'Auto detectar' para identificar automáticamente la codificación
- Seleccione la codificación destino (por defecto UTF-8, la codificación más universal)
- Elija el formato de entrada/salida: Texto plano, Base64, Hex, o formato array C/C++
- Ingrese o pegue su texto, luego haga clic en 'Convertir'. Use 'Copiar' para copiar el resultado o 'Descargar' para guardar
Modo conversión de archivos
- Haga clic en la pestaña 'Conversión de archivos' para entrar en modo archivo
- Arrastre y suelte archivos en el área de carga, o haga clic para seleccionar (soporta múltiples archivos)
- El sistema detectará automáticamente la codificación de cada archivo, mostrada en la columna 'Codificación origen'. Puede modificar manualmente si es necesario
- Seleccione la codificación destino para todos los archivos
- Haga clic en 'Convertir todo' para convertir, luego 'Descargar todo' para guardar los archivos convertidos
Formatos de entrada/salida soportados
- Texto plano - Contenido de texto normal, entrada directa o pegado
- Base64 - Cadena codificada en Base64, comúnmente usada en adjuntos de email y URLs de datos
- Hex - Bytes hexadecimales continuos, ej: 48656C6C6F
- Hex con espacios - Bytes hexadecimales separados por espacios, ej: 48 65 6C 6C 6F
- Array C/C++ - Formato array de bytes estilo C/C++, ej: 0x48,0x65,0x6C,0x6C,0x6F
Casos de uso comunes
Corregir texto corrupto
Cuando reciba archivos de texto o emails corruptos, use esta herramienta para convertir de la codificación original a la correcta para restaurar el contenido legible.
Migración de base de datos
Al migrar datos entre diferentes sistemas de base de datos o servidores, use esta herramienta para asegurar la consistencia de la codificación y prevenir la corrupción de datos.
Desarrollo web
Convierta páginas web heredadas a codificación UTF-8 para asegurar una visualización correcta en navegadores modernos y diferentes plataformas.
Compartir archivos multiplataforma
Convierta archivos entre sistemas Windows (GBK), macOS y Linux para asegurar que el texto se muestre correctamente en todas las plataformas.
Consejos
- Use detección automática cuando no esté seguro de la codificación origen
- Active la vista hex para ver los valores de bytes reales
- Agregue BOM para archivos UTF-8/UTF-16 que se usarán en Windows
- Para conversión por lotes, use la pestaña de archivos
- Al convertir entre codificaciones, algunos caracteres pueden no existir en la codificación destino y serán reemplazados por '?' o similar
Referencia de codificaciones soportadas
Esta herramienta soporta más de 30 codificaciones de caracteres que cubren los principales idiomas y regiones del mundo. A continuación se presenta una referencia detallada para cada codificación soportada.
Codificaciones Unicode
| Codificación | Descripción | Rango de bytes | Especificación |
|---|---|---|---|
| UTF-8 | Codificación Unicode de longitud variable, la más utilizada en la web. Compatible con ASCII. | 1-4 bytes | RFC 3629 |
| UTF-16 LE | UTF-16 Little Endian, comúnmente usado en sistemas Windows. Usa 2 o 4 bytes por carácter. | 2/4 bytes | RFC 2781 |
| UTF-16 BE | UTF-16 Big Endian, usado en algunos protocolos de red y Java. Usa 2 o 4 bytes por carácter. | 2/4 bytes | RFC 2781 |
Codificaciones chinas
| Codificación | Descripción | Uso | Especificación |
|---|---|---|---|
| GBK | Extensión de GB2312, soporta 21,003 caracteres chinos incluyendo caracteres tradicionales. Común en Windows chino simplificado. | Windows chino simplificado, sitios web antiguos | IANA GBK |
| GB2312 | Estándar nacional chino original (1980), soporta 6,763 caracteres chinos simplificados y 682 símbolos. | Sistemas heredados, correos electrónicos | GB 2312-1980 |
| GB18030 | Último estándar nacional chino, obligatorio en China. Soporta todos los caracteres Unicode incluyendo lenguas minoritarias. | Sistemas chinos modernos, documentos gubernamentales | GB 18030-2005 |
| Big5 | Codificación de chino tradicional, principalmente usada en Taiwán y Hong Kong. Contiene 13,060 caracteres tradicionales. | Sitios web de Taiwán, Hong Kong | IANA Charset |
Codificaciones japonesas
| Codificación | Descripción | Uso | Especificación |
|---|---|---|---|
| Shift_JIS | Codificación japonesa de Microsoft, soporta los conjuntos de caracteres JIS X 0201 y JIS X 0208. | Windows, sitios web antiguos, videojuegos | IANA Charset |
| EUC-JP | Extended Unix Code para japonés, codificación de longitud variable compatible con ASCII. | Sistemas Unix/Linux, sitios web antiguos | IANA Charset |
| ISO-2022-JP | Codificación japonesa de 7 bits usando secuencias de escape. También conocida como codificación JIS. | Correos japoneses, sistemas antiguos | RFC 1468 |
Codificaciones coreanas
| Codificación | Descripción | Uso | Especificación |
|---|---|---|---|
| EUC-KR | Extended Unix Code para coreano, basado en el estándar KS X 1001. Soporta 8,822 caracteres coreanos (Hangul + Hanja). | Sitios web coreanos, sistemas heredados | RFC 1557 |
Codificaciones de Europa occidental
| Codificación | Descripción | Idiomas | Especificación |
|---|---|---|---|
| ISO-8859-1 | También conocido como Latin-1, primera parte de la serie ISO-8859. Cubre 191 caracteres de idiomas de Europa occidental. | Inglés, francés, alemán, español, portugués, italiano | ISO/IEC 8859-1 |
| ISO-8859-15 | Latin-9, actualiza Latin-1 con el símbolo del Euro (€) y caracteres adicionales franceses/finlandeses. | Idiomas de Europa occidental con símbolo del Euro | ISO/IEC 8859-15 |
| Windows-1252 | Extensión de Microsoft a Latin-1, añade caracteres tipográficos como comillas y guiones. | Idiomas de Europa occidental en Windows | Unicode.org |
Codificaciones cirílicas
| Codificación | Descripción | Idiomas | Especificación |
|---|---|---|---|
| Windows-1251 | Codificación cirílica de Microsoft para Windows, soporta ruso y otros idiomas basados en cirílico. | Ruso, ucraniano, búlgaro, serbio | Unicode.org |
| KOI8-R | Codificación cirílica de 8 bits, diseñada para ruso. Los caracteres son legibles incluso si se elimina el bit alto. | Ruso | RFC 1489 |
| ISO-8859-5 | Codificación cirílica estándar ISO, parte de la serie ISO-8859. Soporta caracteres cirílicos básicos. | Ruso, búlgaro, macedonio, serbio | ISO/IEC 8859-5 |
Otras codificaciones
| Codificación | Descripción | Uso | Especificación |
|---|---|---|---|
| ASCII | American Standard Code for Information Interchange, la base de la mayoría de las codificaciones modernas. Codificación de 7 bits con 128 caracteres. | Texto inglés básico, programación | RFC 20 |
| Macintosh | Codificación de caracteres original de Apple para Mac OS Classic, también conocida como Mac Roman. | Archivos Mac antiguos, aplicaciones Mac antiguas | Unicode.org |
Preguntas frecuentes
¿Qué es una codificación de caracteres y por qué importa?
Una codificación de caracteres es una correspondencia entre caracteres (letras, símbolos, dígitos) y valores numéricos de bytes. La computadora almacena texto como números y la codificación le indica qué número representa cada carácter. Cuando emisor y receptor usan codificaciones distintas, los bytes se malinterpretan y el texto aparece corrupto — un problema llamado a veces mojibake. UTF-8 es el estándar web y soporta prácticamente todos los idiomas.
¿Cuál es la diferencia entre GBK, GB2312 y GB18030?
Las tres son normas nacionales chinas de codificación. GB2312 (1981) cubre 6.763 caracteres chinos simplificados. GBK (1993) es un superconjunto de GB2312 y añade unos 21.000 caracteres, incluidos los tradicionales. GB18030 (2005) es la norma nacional obligatoria actual que incluye todos los caracteres Unicode, siendo la más completa de las tres.
¿Por qué mi texto convertido sigue viéndose corrupto?
Un texto corrupto después de la conversión normalmente indica que se seleccionó la codificación fuente incorrecta. Si el archivo original se guardó en GBK pero seleccionaste UTF-8 como origen, los bytes se malinterpretarán. Prueba diferentes codificaciones fuente — las más habituales para idiomas asiáticos son GBK, Shift-JIS, EUC-KR y Big5. Para texto europeo, prueba Windows-1252 o ISO-8859-1.
¿Qué es Shift-JIS y cuándo se usa?
Shift-JIS es una codificación de caracteres japonesa desarrollada en los años 80. Fue utilizada por Microsoft Windows y muchas aplicaciones y sitios web japoneses más antiguos. Los sistemas modernos prefieren UTF-8, pero Shift-JIS sigue apareciendo en bases de datos heredadas, sistemas embebidos y ROMs de juegos antiguos.
¿Se puede convertir entre UTF-8 y UTF-16?
Sí. UTF-8 y UTF-16 codifican los mismos puntos de código Unicode — son simplemente representaciones en bytes distintas de los mismos caracteres. UTF-8 usa 1-4 bytes por carácter y es compacto para texto ASCII. UTF-16 usa 2 o 4 bytes por carácter y es usado internamente por Windows, Java y los motores de JavaScript. Convertir entre ellos solo cambia la representación en bytes, no los caracteres.
Herramientas Relacionadas
Convertidor de Codificación
Convertir texto entre Hex, Binario, Unicode, ASCII, Base64 y muchos otros formatos de codificación
Codificador/Decodificador Base64
Codifique y decodifique rápidamente cadenas Base64, compatible con conversión de texto y archivos
Codificador/Decodificador URL
Codifique y decodifique URLs para garantizar el cumplimiento y la usabilidad
Codificador/Decodificador HTML
Convertir caracteres especiales a entidades HTML con formatos nombrados, decimales y hexadecimales para prevenir ataques XSS