CoderTools

Конвертер кодировок

Профессиональное преобразование кодировок с автоопределением

Входных символов: 0 Входных байтов: 0
Выходных символов: 0 Выходных байтов: 0

Документация конвертера

Что такое кодировка символов?

Кодировка символов — это система, которая сопоставляет символы с числами (кодовыми точками), а затем с байтами. Разные кодировки используют разные сопоставления, поэтому текст может отображаться некорректно при открытии с неправильной кодировкой.

Руководство по использованию

Режим конвертации текста

  1. Нажмите на вкладку 'Конвертация текста' для входа в режим конвертации текста
  2. Выберите исходную кодировку из выпадающего списка или используйте 'Автоопределение' для автоматической идентификации
  3. Выберите целевую кодировку (по умолчанию UTF-8, наиболее универсальная кодировка)
  4. Выберите формат ввода/вывода: Обычный текст, Base64, Hex или формат массива C/C++
  5. Введите или вставьте текст, затем нажмите 'Конвертировать'. Используйте 'Копировать' для копирования результата или 'Скачать' для сохранения

Режим конвертации файлов

  1. Нажмите на вкладку 'Конвертация файлов' для входа в режим файлов
  2. Перетащите файлы в область загрузки или нажмите для выбора (поддерживается несколько файлов, макс. 10 МБ каждый)
  3. Система автоматически определит кодировку каждого файла, отображаемую в столбце 'Исходная кодировка'. При необходимости можно изменить вручную
  4. Выберите целевую кодировку для всех файлов
  5. Нажмите 'Конвертировать все' для конвертации, затем 'Скачать все' для сохранения конвертированных файлов

Поддерживаемые форматы ввода/вывода

  • Обычный текст - Обычное текстовое содержимое, прямой ввод или вставка
  • Base64 - Строка в кодировке Base64, часто используется в вложениях электронной почты и URL-адресах данных
  • Hex - Непрерывные шестнадцатеричные байты, напр.: 48656C6C6F
  • Hex с пробелами - Шестнадцатеричные байты, разделённые пробелами, напр.: 48 65 6C 6C 6F
  • Массив C/C++ - Формат байтового массива в стиле C/C++, напр.: 0x48,0x65,0x6C,0x6C,0x6F

Распространённые сценарии использования

Исправление повреждённого текста

Когда вы получаете повреждённые текстовые файлы или электронные письма, используйте этот инструмент для конвертации из исходной кодировки в правильную для восстановления читаемого содержимого.

Миграция базы данных

При миграции данных между различными системами баз данных или серверами используйте этот инструмент для обеспечения согласованности кодировки и предотвращения повреждения данных.

Веб-разработка

Конвертируйте устаревшие веб-страницы в кодировку UTF-8 для обеспечения корректного отображения в современных браузерах и на различных платформах.

Кросс-платформенный обмен файлами

Конвертируйте файлы между системами Windows (GBK), macOS и Linux для обеспечения корректного отображения текста на всех платформах.

Советы

  • Используйте автоопределение, если не уверены в исходной кодировке
  • Включите hex-просмотр для отображения реальных значений байтов
  • Добавляйте BOM для файлов UTF-8/UTF-16, используемых в Windows
  • Для пакетной конвертации используйте вкладку Файлы
  • При конвертации между кодировками некоторые символы могут отсутствовать в целевой кодировке и будут заменены на '?' или подобные

Справочник поддерживаемых кодировок

Этот инструмент поддерживает более 30 кодировок символов, охватывающих основные языки и регионы мира. Ниже приведен подробный справочник по каждой поддерживаемой кодировке.

Кодировки Unicode

Кодировка Описание Диапазон байтов Спецификация
UTF-8 Кодировка Unicode переменной длины, наиболее распространённая в интернете. Обратно совместима с ASCII. 1-4 bytes RFC 3629
UTF-16 LE UTF-16 Little Endian, часто используется в системах Windows. Использует 2 или 4 байта на символ. 2/4 bytes RFC 2781
UTF-16 BE UTF-16 Big Endian, используется в некоторых сетевых протоколах и Java. Использует 2 или 4 байта на символ. 2/4 bytes RFC 2781

Китайские кодировки

Кодировка Описание Использование Спецификация
GBK Расширение GB2312, поддерживает 21 003 китайских иероглифа, включая традиционные. Распространена в упрощённом китайском Windows. Упрощённый китайский Windows, старые сайты IANA GBK
GB2312 Исходный китайский национальный стандарт (1980), поддерживает 6 763 упрощённых китайских иероглифа и 682 символа. Устаревшие системы, электронная почта GB 2312-1980
GB18030 Новейший китайский национальный стандарт, обязательный в Китае. Поддерживает все символы Unicode, включая языки меньшинств. Современные китайские системы, государственные документы GB 18030-2005
Big5 Кодировка традиционного китайского, в основном используется на Тайване и в Гонконге. Содержит 13 060 традиционных иероглифов. Сайты Тайваня, Гонконга IANA Charset

Японские кодировки

Кодировка Описание Использование Спецификация
Shift_JIS Японская кодировка Microsoft, поддерживает наборы символов JIS X 0201 и JIS X 0208. Windows, старые сайты, игры IANA Charset
EUC-JP Extended Unix Code для японского, кодировка переменной длины, совместимая с ASCII. Системы Unix/Linux, старые сайты IANA Charset
ISO-2022-JP 7-битная японская кодировка с использованием escape-последовательностей. Также известна как JIS-кодировка. Японская электронная почта, старые системы RFC 1468

Корейские кодировки

Кодировка Описание Использование Спецификация
EUC-KR Extended Unix Code для корейского, основан на стандарте KS X 1001. Поддерживает 8 822 корейских символа (хангыль + ханча). Корейские сайты, устаревшие системы RFC 1557

Западноевропейские кодировки

Кодировка Описание Языки Спецификация
ISO-8859-1 Также известна как Latin-1, первая часть серии ISO-8859. Охватывает 191 символ западноевропейских языков. Английский, французский, немецкий, испанский, португальский, итальянский ISO/IEC 8859-1
ISO-8859-15 Latin-9, обновляет Latin-1 знаком евро (€) и дополнительными французскими/финскими символами. Западноевропейские языки с символом евро ISO/IEC 8859-15
Windows-1252 Расширение Microsoft для Latin-1, добавляет типографские символы, такие как кавычки и тире. Западноевропейские языки в Windows Unicode.org

Кириллические кодировки

Кодировка Описание Языки Спецификация
Windows-1251 Кириллическая кодировка Microsoft для Windows, поддерживает русский и другие кириллические языки. Русский, украинский, болгарский, сербский Unicode.org
KOI8-R 8-битная кириллическая кодировка, разработанная для русского языка. Символы читаемы даже при удалении старшего бита. Русский RFC 1489
ISO-8859-5 Стандартная кириллическая кодировка ISO, часть серии ISO-8859. Поддерживает базовые кириллические символы. Русский, болгарский, македонский, сербский ISO/IEC 8859-5

Другие кодировки

Кодировка Описание Использование Спецификация
ASCII American Standard Code for Information Interchange, основа большинства современных кодировок. 7-битная кодировка со 128 символами. Базовый английский текст, программирование RFC 20
Macintosh Исходная кодировка Apple для Mac OS Classic, также известна как Mac Roman. Старые файлы Mac, старые приложения Mac Unicode.org

Связанные инструменты