CoderTools

字符集转换器

专业的字符编码转换工具,支持自动检测

输入字符数: 0 输入字节数: 0
输出字符数: 0 输出字节数: 0

字符集转换器文档

什么是字符编码?

字符编码是一套将字符映射到数字(码点),再映射到字节的系统。不同的编码使用不同的映射规则,这就是为什么用错误的编码打开文本会出现乱码。选择正确的编码对于正确显示和处理多语言文本至关重要。

如何使用本工具

文本转换模式

  1. 点击「文本转换」标签页进入文本转换模式
  2. 从下拉菜单选择源编码,或使用「自动检测」自动识别编码
  3. 选择目标编码(默认为 UTF-8,最通用的编码格式)
  4. 选择输入/输出格式:纯文本、Base64、Hex 或 C/C++ 数组格式
  5. 输入或粘贴文本,点击「转换」按钮。使用「复制」复制结果或「下载」保存为文件

文件转换模式

  1. 点击「文件转换」标签页进入文件模式
  2. 将文件拖放到上传区域,或点击选择文件(支持多文件,单个文件最大 10MB)
  3. 系统会自动检测每个文件的编码,显示在「源编码」列。如需要可手动修改
  4. 选择所有文件的目标编码
  5. 点击「全部转换」进行转换,然后点击「全部下载」保存转换后的文件

支持的输入/输出格式

  • 纯文本 - 常规文本内容,直接输入或粘贴
  • Base64 - Base64 编码字符串,常用于邮件附件和 Data URL
  • Hex - 连续的十六进制字节,如 48656C6C6F
  • 带空格的 Hex - 空格分隔的十六进制字节,如 48 65 6C 6C 6F
  • C/C++ 数组 - C/C++ 风格的字节数组格式,如 0x48,0x65,0x6C,0x6C,0x6F

常见使用场景

修复乱码文本

当收到乱码的文本文件或邮件时,使用本工具将其从原始编码转换为正确的编码,恢复可读内容。

数据库迁移

在不同数据库系统或服务器之间迁移数据时,使用本工具确保字符编码一致性,防止数据损坏。

Web 开发

将旧版网页转换为 UTF-8 编码,确保在现代浏览器和不同平台上正确显示。

跨平台文件共享

在 Windows(GBK)、macOS 和 Linux 系统之间转换文件,确保文本在所有平台上正确显示。

使用技巧与最佳实践

  • 不确定源编码时使用「自动检测」功能——对大多数语言的检测准确率很高
  • 启用「显示 Hex」可查看实际字节值,有助于调试编码问题
  • 为需要它的 Windows 应用程序创建 UTF-8/UTF-16 文件时,添加 BOM(字节顺序标记)
  • 批量文件转换请使用「文件转换」标签页,支持同时处理多个文件
  • 编码转换时,某些字符可能在目标编码中不存在,会被替换为「?」或类似占位符

支持的编码参考

本工具支持 30+ 种字符编码,覆盖全球主要语言和地区。以下是每种支持编码的详细参考。

Unicode 编码

编码 说明 字节范围 规范文档
UTF-8 可变长度 Unicode 编码,Web 上最广泛使用的编码。向后兼容 ASCII。 1-4 bytes RFC 3629
UTF-16 LE UTF-16 小端序,Windows 系统常用。每个字符使用 2 或 4 字节。 2/4 bytes RFC 2781
UTF-16 BE UTF-16 大端序,用于某些网络协议和 Java。每个字符使用 2 或 4 字节。 2/4 bytes RFC 2781

中文编码

编码 说明 使用场景 规范文档
GBK GB2312 的扩展,支持 21,003 个汉字,包括繁体字。简体中文 Windows 常用。 简体中文 Windows、旧网站 IANA GBK
GB2312 原始中国国家标准(1980年),支持 6,763 个简体汉字和 682 个符号。 旧系统、邮件 GB 2312-1980
GB18030 最新中国国家标准,在中国强制执行。支持所有 Unicode 字符,包括少数民族语言。 现代中文系统、政府文档 GB 18030-2005
Big5 繁体中文编码,主要在台湾和香港使用。包含 13,060 个繁体汉字。 台湾、香港网站 IANA Charset

日文编码

编码 说明 使用场景 规范文档
Shift_JIS 微软的日文编码,支持 JIS X 0201 和 JIS X 0208 字符集。 Windows、旧网站、游戏 IANA Charset
EUC-JP 日文扩展 Unix 编码,可变长度编码,兼容 ASCII。 Unix/Linux 系统、旧网站 IANA Charset
ISO-2022-JP 使用转义序列的 7 位日文编码。也称为 JIS 编码。 日文邮件、旧系统 RFC 1468

韩文编码

编码 说明 使用场景 规范文档
EUC-KR 韩文扩展 Unix 编码,基于 KS X 1001 标准。支持 8,822 个韩文字符(韩文字母 + 汉字)。 韩文网站、旧系统 RFC 1557

西欧编码

编码 说明 适用语言 规范文档
ISO-8859-1 也称为 Latin-1,ISO-8859 系列的第一部分。覆盖 191 个西欧语言字符。 英语、法语、德语、西班牙语、葡萄牙语、意大利语 ISO/IEC 8859-1
ISO-8859-15 Latin-9,在 Latin-1 基础上增加了欧元符号(€)和额外的法语/芬兰语字符。 带欧元符号的西欧语言 ISO/IEC 8859-15
Windows-1252 微软对 Latin-1 的扩展,添加了弯引号和破折号等排版字符。 Windows 上的西欧语言 Unicode.org

西里尔文编码

编码 说明 适用语言 规范文档
Windows-1251 微软的 Windows 西里尔文编码,支持俄语和其他西里尔文语言。 俄语、乌克兰语、保加利亚语、塞尔维亚语 Unicode.org
KOI8-R 8 位西里尔文编码,专为俄语设计。即使去掉高位也能阅读字符。 俄语 RFC 1489
ISO-8859-5 ISO 标准西里尔文编码,ISO-8859 系列的一部分。支持基本西里尔字符。 俄语、保加利亚语、马其顿语、塞尔维亚语 ISO/IEC 8859-5

其他编码

编码 说明 使用场景 规范文档
ASCII 美国信息交换标准代码,大多数现代编码的基础。7 位编码,包含 128 个字符。 基础英文文本、编程 RFC 20
Macintosh 苹果为 Mac OS Classic 设计的原始字符编码,也称为 Mac Roman。 旧版 Mac 文件、旧 Mac 应用程序 Unicode.org

相关工具