CoderTools

Bộ chuyển đổi bộ ký tự

Chuyển đổi mã hóa chuyên nghiệp với hỗ trợ tự động phát hiện

Ký tự đầu vào: 0 Byte đầu vào: 0
Ký tự đầu ra: 0 Byte đầu ra: 0

Tài liệu bộ chuyển đổi

Mã hóa ký tự là gì?

Mã hóa ký tự là hệ thống ánh xạ các ký tự sang số (điểm mã) rồi sang byte. Các mã hóa khác nhau sử dụng ánh xạ khác nhau, đó là lý do văn bản có thể bị lỗi khi mở với mã hóa sai.

Hướng dẫn sử dụng

Chế độ chuyển đổi văn bản

  1. Nhấp tab 'Chuyển đổi văn bản' để vào chế độ chuyển đổi văn bản
  2. Chọn mã hóa nguồn từ danh sách thả xuống, hoặc dùng 'Tự động phát hiện' để tự động nhận dạng mã hóa
  3. Chọn mã hóa đích (mặc định là UTF-8, mã hóa phổ quát nhất)
  4. Chọn định dạng đầu vào/đầu ra: Văn bản thuần, Base64, Hex, hoặc định dạng mảng C/C++
  5. Nhập hoặc dán văn bản, sau đó nhấp nút 'Chuyển đổi'. Dùng 'Sao chép' để sao chép kết quả hoặc 'Tải xuống' để lưu thành tệp

Chế độ chuyển đổi tệp

  1. Nhấp tab 'Chuyển đổi tệp' để vào chế độ tệp
  2. Kéo thả tệp vào vùng tải lên, hoặc nhấp để chọn tệp (hỗ trợ nhiều tệp, tối đa 10MB mỗi tệp)
  3. Hệ thống sẽ tự động phát hiện mã hóa của từng tệp, hiển thị trong cột 'Mã hóa nguồn'. Bạn có thể ghi đè thủ công nếu cần
  4. Chọn mã hóa đích cho tất cả các tệp
  5. Nhấp 'Chuyển đổi tất cả' để chuyển đổi, sau đó 'Tải tất cả' để lưu các tệp đã chuyển đổi

Các định dạng đầu vào/đầu ra được hỗ trợ

  • Văn bản thuần - Nội dung văn bản thông thường, nhập trực tiếp hoặc dán
  • Base64 - Chuỗi mã hóa Base64, thường dùng trong tệp đính kèm email và URL dữ liệu
  • Hex - Các byte thập lục phân liên tục, VD: 48656C6C6F
  • Hex có dấu cách - Các byte thập lục phân cách nhau bằng dấu cách, VD: 48 65 6C 6C 6F
  • Mảng C/C++ - Định dạng mảng byte kiểu C/C++, VD: 0x48,0x65,0x6C,0x6C,0x6F

Các trường hợp sử dụng phổ biến

Sửa văn bản bị lỗi ký tự

Khi văn bản bị lỗi do mã hóa sai, sử dụng công cụ này để chuyển đổi sang mã hóa đúng.

Di chuyển cơ sở dữ liệu

Chuyển đổi tệp dữ liệu sang mã hóa UTF-8 khi di chuyển hệ thống cơ sở dữ liệu cũ.

Phát triển web

Đảm bảo tất cả nội dung web sử dụng mã hóa UTF-8 nhất quán để hiển thị đúng.

Chia sẻ tệp đa nền tảng

Chuyển đổi mã hóa cho các tệp văn bản được tạo trên các hệ điều hành khác nhau.

Mẹo

  • Dùng tự động phát hiện khi không chắc về mã hóa nguồn
  • Bật xem hex để thấy giá trị byte thực tế
  • Thêm BOM cho tệp UTF-8/UTF-16 sẽ dùng trên Windows
  • Để chuyển đổi hàng loạt, sử dụng tab Tệp
  • Các ký tự không tồn tại trong mã hóa đích sẽ được thay bằng '?'

Tham chiếu mã hóa được hỗ trợ

Công cụ này hỗ trợ hơn 30 mã hóa ký tự bao gồm các ngôn ngữ và khu vực chính trên thế giới. Dưới đây là tham chiếu chi tiết cho từng mã hóa được hỗ trợ.

Mã hóa Unicode

Mã hóa Mô tả Phạm vi byte Thông số
UTF-8 Mã hóa Unicode độ dài biến đổi, được sử dụng rộng rãi nhất trên web. Tương thích ngược với ASCII. 1-4 bytes RFC 3629
UTF-16 LE UTF-16 Little Endian, thường dùng trên hệ thống Windows. Sử dụng 2 hoặc 4 byte mỗi ký tự. 2/4 bytes RFC 2781
UTF-16 BE UTF-16 Big Endian, dùng trong một số giao thức mạng và Java. Sử dụng 2 hoặc 4 byte mỗi ký tự. 2/4 bytes RFC 2781

Mã hóa tiếng Trung

Mã hóa Mô tả Cách dùng Thông số
GBK Mở rộng của GB2312, hỗ trợ 21.003 ký tự Trung Quốc bao gồm cả phồn thể. Phổ biến trên Windows tiếng Trung giản thể. Windows tiếng Trung giản thể, website cũ IANA GBK
GB2312 Tiêu chuẩn quốc gia Trung Quốc gốc (1980), hỗ trợ 6.763 ký tự Trung giản thể và 682 ký hiệu. Hệ thống cũ, email GB 2312-1980
GB18030 Tiêu chuẩn quốc gia Trung Quốc mới nhất, bắt buộc tại Trung Quốc. Hỗ trợ tất cả ký tự Unicode bao gồm ngôn ngữ thiểu số. Hệ thống Trung Quốc hiện đại, văn bản chính phủ GB 18030-2005
Big5 Mã hóa tiếng Trung phồn thể, chủ yếu dùng tại Đài Loan và Hồng Kông. Chứa 13.060 ký tự phồn thể. Website Đài Loan, Hồng Kông IANA Charset

Mã hóa tiếng Nhật

Mã hóa Mô tả Cách dùng Thông số
Shift_JIS Mã hóa tiếng Nhật của Microsoft, hỗ trợ bộ ký tự JIS X 0201 và JIS X 0208. Windows, website cũ, game IANA Charset
EUC-JP Extended Unix Code cho tiếng Nhật, mã hóa độ dài biến đổi tương thích với ASCII. Hệ thống Unix/Linux, website cũ IANA Charset
ISO-2022-JP Mã hóa tiếng Nhật 7-bit sử dụng chuỗi thoát. Còn được gọi là mã hóa JIS. Email tiếng Nhật, hệ thống cũ RFC 1468

Mã hóa tiếng Hàn

Mã hóa Mô tả Cách dùng Thông số
EUC-KR Extended Unix Code cho tiếng Hàn, dựa trên tiêu chuẩn KS X 1001. Hỗ trợ 8.822 ký tự Hàn Quốc (Hangul + Hanja). Website Hàn Quốc, hệ thống cũ RFC 1557

Mã hóa Tây Âu

Mã hóa Mô tả Ngôn ngữ Thông số
ISO-8859-1 Còn được gọi là Latin-1, phần đầu tiên của chuỗi ISO-8859. Bao gồm 191 ký tự của ngôn ngữ Tây Âu. Tiếng Anh, Pháp, Đức, Tây Ban Nha, Bồ Đào Nha, Ý ISO/IEC 8859-1
ISO-8859-15 Latin-9, cập nhật Latin-1 với ký hiệu Euro (€) và ký tự Pháp/Phần Lan bổ sung. Ngôn ngữ Tây Âu với ký hiệu Euro ISO/IEC 8859-15
Windows-1252 Mở rộng của Microsoft cho Latin-1, thêm các ký tự in ấn như dấu ngoặc kép và gạch ngang. Ngôn ngữ Tây Âu trên Windows Unicode.org

Mã hóa Kirin

Mã hóa Mô tả Ngôn ngữ Thông số
Windows-1251 Mã hóa Kirin của Microsoft cho Windows, hỗ trợ tiếng Nga và các ngôn ngữ dựa trên Kirin khác. Tiếng Nga, Ukraina, Bulgaria, Serbia Unicode.org
KOI8-R Mã hóa Kirin 8-bit, được thiết kế cho tiếng Nga. Ký tự vẫn đọc được ngay cả khi bit cao bị loại bỏ. Tiếng Nga RFC 1489
ISO-8859-5 Mã hóa Kirin tiêu chuẩn ISO, thuộc chuỗi ISO-8859. Hỗ trợ các ký tự Kirin cơ bản. Tiếng Nga, Bulgaria, Macedonia, Serbia ISO/IEC 8859-5

Mã hóa khác

Mã hóa Mô tả Cách dùng Thông số
ASCII American Standard Code for Information Interchange, nền tảng của hầu hết các mã hóa hiện đại. Mã hóa 7-bit với 128 ký tự. Văn bản tiếng Anh cơ bản, lập trình RFC 20
Macintosh Mã hóa gốc của Apple cho Mac OS Classic, còn được gọi là Mac Roman. File Mac cũ, ứng dụng Mac cũ Unicode.org

Công Cụ Liên Quan