字符集转换器
专业的字符编码转换工具,支持自动检测
Hex 输出
拖放文件到此处或点击选择
支持多文件,单个文件最大 10MB
自动检测或手动选择上传文件的编码
已选择的文件
| 文件名 | 大小 | 源编码 | 预览 | 状态 |
|---|
字符集转换器文档
什么是字符编码?
字符编码是一套将字符映射到数字(码点),再映射到字节的系统。不同的编码使用不同的映射规则,这就是为什么用错误的编码打开文本会出现乱码。选择正确的编码对于正确显示和处理多语言文本至关重要。
如何使用本工具
文本转换模式
- 点击「文本转换」标签页进入文本转换模式
- 从下拉菜单选择源编码,或使用「自动检测」自动识别编码
- 选择目标编码(默认为 UTF-8,最通用的编码格式)
- 选择输入/输出格式:纯文本、Base64、Hex 或 C/C++ 数组格式
- 输入或粘贴文本,点击「转换」按钮。使用「复制」复制结果或「下载」保存为文件
文件转换模式
- 点击「文件转换」标签页进入文件模式
- 将文件拖放到上传区域,或点击选择文件(支持多文件,单个文件最大 10MB)
- 系统会自动检测每个文件的编码,显示在「源编码」列。如需要可手动修改
- 选择所有文件的目标编码
- 点击「全部转换」进行转换,然后点击「全部下载」保存转换后的文件
支持的输入/输出格式
- 纯文本 - 常规文本内容,直接输入或粘贴
- Base64 - Base64 编码字符串,常用于邮件附件和 Data URL
- Hex - 连续的十六进制字节,如 48656C6C6F
- 带空格的 Hex - 空格分隔的十六进制字节,如 48 65 6C 6C 6F
- C/C++ 数组 - C/C++ 风格的字节数组格式,如 0x48,0x65,0x6C,0x6C,0x6F
常见使用场景
修复乱码文本
当收到乱码的文本文件或邮件时,使用本工具将其从原始编码转换为正确的编码,恢复可读内容。
数据库迁移
在不同数据库系统或服务器之间迁移数据时,使用本工具确保字符编码一致性,防止数据损坏。
Web 开发
将旧版网页转换为 UTF-8 编码,确保在现代浏览器和不同平台上正确显示。
跨平台文件共享
在 Windows(GBK)、macOS 和 Linux 系统之间转换文件,确保文本在所有平台上正确显示。
使用技巧与最佳实践
- 不确定源编码时使用「自动检测」功能——对大多数语言的检测准确率很高
- 启用「显示 Hex」可查看实际字节值,有助于调试编码问题
- 为需要它的 Windows 应用程序创建 UTF-8/UTF-16 文件时,添加 BOM(字节顺序标记)
- 批量文件转换请使用「文件转换」标签页,支持同时处理多个文件
- 编码转换时,某些字符可能在目标编码中不存在,会被替换为「?」或类似占位符
支持的编码参考
本工具支持 30+ 种字符编码,覆盖全球主要语言和地区。以下是每种支持编码的详细参考。
Unicode 编码
中文编码
| 编码 | 说明 | 使用场景 | 规范文档 |
|---|---|---|---|
| GBK | GB2312 的扩展,支持 21,003 个汉字,包括繁体字。简体中文 Windows 常用。 | 简体中文 Windows、旧网站 | IANA GBK |
| GB2312 | 原始中国国家标准(1980年),支持 6,763 个简体汉字和 682 个符号。 | 旧系统、邮件 | GB 2312-1980 |
| GB18030 | 最新中国国家标准,在中国强制执行。支持所有 Unicode 字符,包括少数民族语言。 | 现代中文系统、政府文档 | GB 18030-2005 |
| Big5 | 繁体中文编码,主要在台湾和香港使用。包含 13,060 个繁体汉字。 | 台湾、香港网站 | IANA Charset |
日文编码
| 编码 | 说明 | 使用场景 | 规范文档 |
|---|---|---|---|
| Shift_JIS | 微软的日文编码,支持 JIS X 0201 和 JIS X 0208 字符集。 | Windows、旧网站、游戏 | IANA Charset |
| EUC-JP | 日文扩展 Unix 编码,可变长度编码,兼容 ASCII。 | Unix/Linux 系统、旧网站 | IANA Charset |
| ISO-2022-JP | 使用转义序列的 7 位日文编码。也称为 JIS 编码。 | 日文邮件、旧系统 | RFC 1468 |
韩文编码
| 编码 | 说明 | 使用场景 | 规范文档 |
|---|---|---|---|
| EUC-KR | 韩文扩展 Unix 编码,基于 KS X 1001 标准。支持 8,822 个韩文字符(韩文字母 + 汉字)。 | 韩文网站、旧系统 | RFC 1557 |
西欧编码
| 编码 | 说明 | 适用语言 | 规范文档 |
|---|---|---|---|
| ISO-8859-1 | 也称为 Latin-1,ISO-8859 系列的第一部分。覆盖 191 个西欧语言字符。 | 英语、法语、德语、西班牙语、葡萄牙语、意大利语 | ISO/IEC 8859-1 |
| ISO-8859-15 | Latin-9,在 Latin-1 基础上增加了欧元符号(€)和额外的法语/芬兰语字符。 | 带欧元符号的西欧语言 | ISO/IEC 8859-15 |
| Windows-1252 | 微软对 Latin-1 的扩展,添加了弯引号和破折号等排版字符。 | Windows 上的西欧语言 | Unicode.org |
西里尔文编码
| 编码 | 说明 | 适用语言 | 规范文档 |
|---|---|---|---|
| Windows-1251 | 微软的 Windows 西里尔文编码,支持俄语和其他西里尔文语言。 | 俄语、乌克兰语、保加利亚语、塞尔维亚语 | Unicode.org |
| KOI8-R | 8 位西里尔文编码,专为俄语设计。即使去掉高位也能阅读字符。 | 俄语 | RFC 1489 |
| ISO-8859-5 | ISO 标准西里尔文编码,ISO-8859 系列的一部分。支持基本西里尔字符。 | 俄语、保加利亚语、马其顿语、塞尔维亚语 | ISO/IEC 8859-5 |
其他编码
| 编码 | 说明 | 使用场景 | 规范文档 |
|---|---|---|---|
| ASCII | 美国信息交换标准代码,大多数现代编码的基础。7 位编码,包含 128 个字符。 | 基础英文文本、编程 | RFC 20 |
| Macintosh | 苹果为 Mac OS Classic 设计的原始字符编码,也称为 Mac Roman。 | 旧版 Mac 文件、旧 Mac 应用程序 | Unicode.org |