Конвертер кодировок текста
Преобразование текста между Hex, Binary, Unicode и другими форматами кодировки
Детали символа
Документация конвертера кодировок
Что такое кодировка символов?
Кодировка символов — это система, которая сопоставляет символы с числами, которые могут обрабатывать компьютеры. Различные схемы кодирования используются для разных целей, таких как хранение, передача или отображение текстовых данных. Распространенные кодировки включают ASCII, UTF-8, UTF-16 и т.д.
Поддерживаемые форматы
Шестнадцатеричный (Hex)
Шестнадцатеричное представление с использованием цифр 0-9 и букв A-F. Каждый байт представлен двумя шестнадцатеричными символами. Широко используется в программировании и отладке.
Двоичный
Двоичное представление с использованием только 0 и 1. Каждый байт представлен 8 битами. Это фундаментальное представление данных, используемое компьютерами.
Unicode Escape
Escape-последовательности Unicode в формате \uXXXX, обычно используемые в языках программирования, таких как JavaScript и JSON, для представления символов Unicode.
HTML сущность
Кодировка HTML сущностей, включая именованные сущности (например, &) и числовые сущности (например, & или &). Используется для безопасного отображения специальных символов в HTML.
Punycode
Схема кодирования для интернационализированных доменных имен (IDN). Преобразует символы Unicode в кодировку, совместимую с ASCII, с префиксом xn--.
Общие случаи использования
- Просмотр шестнадцатеричного или двоичного представления символов при отладке
- Обработка кодирования данных в сетевых протоколах
- Анализ и исправление проблем с кодировкой (mojibake)
- Использование escape-последовательностей Unicode в коде
- Обработка интернационализированных доменных имен (IDN)
- Экранирование символов в HTML/XML
Набор символов vs Формат кодировки
Набор символов и формат кодировки — это два разных понятия. Набор символов определяет, какие символы используются в тексте (такие как ASCII, GB2312, GBK, Unicode и т.д.), а формат кодировки определяет, как эти символы хранятся на компьютере (такие как UTF-8, UTF-16 и т.д.). Например, один и тот же текст может быть закодирован с использованием набора символов GB2312 как кодировка GB2312 или с использованием набора символов Unicode как UTF-8.
Если вам нужно преобразовывать между различными наборами символов (такими как GBK, UTF-8, ISO-8859-1 и т.д.), а не просто менять формат кодировки, используйте инструмент Конвертер наборов символов.
Часто задаваемые вопросы
В чём разница между кодированием и шифрованием?
Кодирование преобразует данные в другое представление по публично известной схеме — секретный ключ не используется, и любой может выполнить обратное преобразование. Шифрование перемешивает данные с использованием секретного ключа, только владелец ключа может их восстановить. Base64 и шестнадцатеричное представление — это кодирование; AES и RSA — алгоритмы шифрования.
Почему текст в Base64 заканчивается на = или ==?
Base64 кодирует каждые 3 входных байта в 4 выходных символа. Когда длина входных данных не кратна 3, добавляется один или два символа = как дополнение, чтобы выходная строка была кратна 4. Один = обозначает добавление 1 байта дополнения, два == — 2 байта. Некоторые реализации убирают дополнение — обе формы допустимы, если декодер с этим справляется.
В чём разница между ASCII и Unicode?
ASCII — 7-битная кодировка, охватывающая 128 символов (A-Z, 0-9, распространённые знаки препинания). Unicode — стандарт набора символов, включающий более 140 000 знаков из всех систем письма. UTF-8, UTF-16 и UTF-32 — разные способы представления кодовых точек Unicode в виде байтов. UTF-8 обратно совместима с ASCII для первых 128 кодовых точек.
Когда следует использовать шестнадцатеричное кодирование вместо Base64?
Шестнадцатеричная кодировка (Base16) представляет каждый байт двумя шестнадцатеричными символами. Это многословно, но мгновенно читаемо при технической проверке — удобно для отладки потоков байтов, криптографических ключей и значений бинарных протоколов. Base64 примерно на 33% компактнее и предпочтительнее при передаче двоичных данных в JSON, электронной почте или URL.
Что означает нотация U+XXXX для кодовых точек Unicode?
U+XXXX — стандартное обозначение кодовой точки Unicode, где XXXX — шестнадцатеричное число. Например, U+0041 — латинская прописная буква A, а U+4E2D — китайский иероглиф 中. Кодовые точки находятся в диапазоне от U+0000 до U+10FFFF. Префикс U+ был введён Консорциумом Unicode, чтобы отличать кодовые точки от значений байтов.
Связанные инструменты
Конвертер кодировок
Преобразование кодировки текста между UTF-8, GBK, Big5, Shift_JIS, ISO-8859, кодовыми страницами Windows с автоопределением
Конвертер систем счисления
Конвертация между двоичной, восьмеричной, десятичной и шестнадцатеричной системами с поддержкой произвольных оснований (2-36)
URL Кодировщик/Декодер
Кодирование и декодирование URL для обеспечения соответствия и удобства использования
HTML Кодировщик/Декодер
Преобразование специальных символов в HTML сущности с именованными, десятичными и шестнадцатеричными форматами для предотвращения XSS атак
Base64 Кодировщик/Декодер
Быстрое кодирование и декодирование Base64 строк с поддержкой текста и файлов
Escape/Unescape Инструмент
Экранирование и снятие экранирования строк между несколькими форматами, включая JavaScript, JSON, HTML, XML, CSV, SQL и другие