CoderTools

Конвертер кодировок текста

Преобразование текста между Hex, Binary, Unicode и другими форматами кодировки

Разделитель байтов:
Добавить префикс:

Документация конвертера кодировок

Что такое кодировка символов?

Кодировка символов — это система, которая сопоставляет символы с числами, которые могут обрабатывать компьютеры. Различные схемы кодирования используются для разных целей, таких как хранение, передача или отображение текстовых данных. Распространенные кодировки включают ASCII, UTF-8, UTF-16 и т.д.

Поддерживаемые форматы

Шестнадцатеричный (Hex)

Шестнадцатеричное представление с использованием цифр 0-9 и букв A-F. Каждый байт представлен двумя шестнадцатеричными символами. Широко используется в программировании и отладке.

Двоичный

Двоичное представление с использованием только 0 и 1. Каждый байт представлен 8 битами. Это фундаментальное представление данных, используемое компьютерами.

Unicode Escape

Escape-последовательности Unicode в формате \uXXXX, обычно используемые в языках программирования, таких как JavaScript и JSON, для представления символов Unicode.

HTML сущность

Кодировка HTML сущностей, включая именованные сущности (например, &) и числовые сущности (например, & или &). Используется для безопасного отображения специальных символов в HTML.

Punycode

Схема кодирования для интернационализированных доменных имен (IDN). Преобразует символы Unicode в кодировку, совместимую с ASCII, с префиксом xn--.

Общие случаи использования

  • Просмотр шестнадцатеричного или двоичного представления символов при отладке
  • Обработка кодирования данных в сетевых протоколах
  • Анализ и исправление проблем с кодировкой (mojibake)
  • Использование escape-последовательностей Unicode в коде
  • Обработка интернационализированных доменных имен (IDN)
  • Экранирование символов в HTML/XML

Набор символов vs Формат кодировки

Набор символов и формат кодировки — это два разных понятия. Набор символов определяет, какие символы используются в тексте (такие как ASCII, GB2312, GBK, Unicode и т.д.), а формат кодировки определяет, как эти символы хранятся на компьютере (такие как UTF-8, UTF-16 и т.д.). Например, один и тот же текст может быть закодирован с использованием набора символов GB2312 как кодировка GB2312 или с использованием набора символов Unicode как UTF-8.

Если вам нужно преобразовывать между различными наборами символов (такими как GBK, UTF-8, ISO-8859-1 и т.д.), а не просто менять формат кодировки, используйте инструмент Конвертер наборов символов.

Часто задаваемые вопросы

В чём разница между кодированием и шифрованием?

Кодирование преобразует данные в другое представление по публично известной схеме — секретный ключ не используется, и любой может выполнить обратное преобразование. Шифрование перемешивает данные с использованием секретного ключа, только владелец ключа может их восстановить. Base64 и шестнадцатеричное представление — это кодирование; AES и RSA — алгоритмы шифрования.

Почему текст в Base64 заканчивается на = или ==?

Base64 кодирует каждые 3 входных байта в 4 выходных символа. Когда длина входных данных не кратна 3, добавляется один или два символа = как дополнение, чтобы выходная строка была кратна 4. Один = обозначает добавление 1 байта дополнения, два == — 2 байта. Некоторые реализации убирают дополнение — обе формы допустимы, если декодер с этим справляется.

В чём разница между ASCII и Unicode?

ASCII — 7-битная кодировка, охватывающая 128 символов (A-Z, 0-9, распространённые знаки препинания). Unicode — стандарт набора символов, включающий более 140 000 знаков из всех систем письма. UTF-8, UTF-16 и UTF-32 — разные способы представления кодовых точек Unicode в виде байтов. UTF-8 обратно совместима с ASCII для первых 128 кодовых точек.

Когда следует использовать шестнадцатеричное кодирование вместо Base64?

Шестнадцатеричная кодировка (Base16) представляет каждый байт двумя шестнадцатеричными символами. Это многословно, но мгновенно читаемо при технической проверке — удобно для отладки потоков байтов, криптографических ключей и значений бинарных протоколов. Base64 примерно на 33% компактнее и предпочтительнее при передаче двоичных данных в JSON, электронной почте или URL.

Что означает нотация U+XXXX для кодовых точек Unicode?

U+XXXX — стандартное обозначение кодовой точки Unicode, где XXXX — шестнадцатеричное число. Например, U+0041 — латинская прописная буква A, а U+4E2D — китайский иероглиф 中. Кодовые точки находятся в диапазоне от U+0000 до U+10FFFF. Префикс U+ был введён Консорциумом Unicode, чтобы отличать кодовые точки от значений байтов.

Связанные инструменты

Быстрое меню

Нет недавних инструментов