Conversor de Codificação de Texto
Converta texto entre Hex, Binário, Unicode e mais formatos de codificação
Detalhes do Caractere
Documentação do Conversor de Codificação
O que é Codificação de Caracteres?
A codificação de caracteres é um sistema que mapeia caracteres para números que os computadores podem processar. Diferentes esquemas de codificação são usados para diferentes propósitos, como armazenar, transmitir ou exibir dados de texto. Codificações comuns incluem ASCII, UTF-8, UTF-16, etc.
Formatos Suportados
Hexadecimal (Hex)
Representação hexadecimal usando dígitos 0-9 e letras A-F. Cada byte é representado por dois caracteres hexadecimais. Amplamente usado em programação e depuração.
Binário
Representação binária usando apenas 0 e 1. Cada byte é representado por 8 bits. Esta é a representação de dados fundamental usada pelos computadores.
Escape Unicode
Sequências de escape Unicode no formato \uXXXX, comumente usadas em linguagens de programação como JavaScript e JSON para representar caracteres Unicode.
Entidade HTML
Codificação de entidades HTML, incluindo entidades nomeadas (como &) e entidades numéricas (como & ou &). Usado para exibir caracteres especiais com segurança em HTML.
Punycode
Esquema de codificação para Nomes de Domínio Internacionalizados (IDN). Converte caracteres Unicode em codificação compatível com ASCII, prefixado com xn--.
Casos de Uso Comuns
- Visualizar representação hexadecimal ou binária de caracteres durante a depuração
- Lidar com codificação de dados em protocolos de rede
- Analisar e corrigir problemas de codificação (mojibake)
- Usar sequências de escape Unicode no código
- Lidar com Nomes de Domínio Internacionalizados (IDN)
- Escape de caracteres em HTML/XML
Conjunto de caracteres vs Formato de codificação
O conjunto de caracteres e o formato de codificação são dois conceitos diferentes. Um conjunto de caracteres define quais caracteres são usados em texto (como ASCII, GB2312, GBK, Unicode, etc.), enquanto um formato de codificação define como esses caracteres são armazenados em um computador (como UTF-8, UTF-16, etc.). Por exemplo, o mesmo texto pode ser codificado usando o conjunto de caracteres GB2312 como codificação GB2312, ou usando o conjunto de caracteres Unicode como UTF-8.
Se você precisar converter entre diferentes conjuntos de caracteres (como GBK, UTF-8, ISO-8859-1, etc.) em vez de apenas alterar o formato de codificação, use a ferramenta Conversor de conjunto de caracteres.
Perguntas frequentes
Qual é a diferença entre codificação e criptografia?
A codificação transforma dados em outra representação usando um esquema publicamente conhecido — não há chave secreta envolvida e o processo é totalmente reversível por qualquer pessoa. A criptografia embaralha dados usando uma chave secreta, então apenas quem tem a chave pode revertê-la. Base64 e hexadecimal são codificações; AES e RSA são algoritmos de criptografia.
Por que texto codificado em Base64 termina com = ou ==?
Base64 codifica cada 3 bytes de entrada em 4 caracteres de saída. Quando o comprimento da entrada não é divisível por 3, um ou dois caracteres = são adicionados como preenchimento para tornar a saída um múltiplo de 4. Um = indica 1 byte de preenchimento; dois == indicam 2 bytes. Algumas implementações omitem o preenchimento — ambas as formas são válidas se o decodificador suportar.
Qual é a diferença entre ASCII e Unicode?
ASCII é uma codificação de 7 bits que cobre 128 caracteres (A-Z, 0-9, pontuação comum). Unicode é um padrão de repertório de caracteres cobrindo mais de 140.000 caracteres em todos os sistemas de escrita. UTF-8, UTF-16 e UTF-32 são formas diferentes de codificar pontos de código Unicode como bytes — UTF-8 é retrocompatível com ASCII para os primeiros 128 pontos de código.
Quando devo usar codificação hexadecimal em vez de Base64?
Hexadecimal (Base16) representa cada byte como dois caracteres hexadecimais — verboso, mas imediatamente legível para inspeção técnica de fluxos de bytes, chaves criptográficas e valores de protocolos binários. Base64 é cerca de 33% mais compacto e é preferido para transmitir dados binários em JSON, e-mail ou URLs.
O que significa a notação U+XXXX para pontos de código Unicode?
U+XXXX é a notação padrão para um ponto de código Unicode, onde XXXX é um número hexadecimal. Por exemplo, U+0041 é a letra maiúscula latina A, e U+4E2D é o caractere chinês 中. Os pontos de código vão de U+0000 a U+10FFFF. O prefixo U+ foi introduzido pelo Unicode Consortium para distinguir pontos de código de valores de bytes.
Ferramentas Relacionadas
Conversor de Conjunto de Caracteres
Converta codificação de texto entre UTF-8, GBK, Big5, Shift_JIS, ISO-8859, páginas de código Windows com detecção automática
Conversor de Base
Converter entre sistemas binário, octal, decimal e hexadecimal com suporte para bases personalizadas (2-36)
Codificador/Decodificador URL
Codifique e decodifique URLs para garantir conformidade e usabilidade
Codificador/Decodificador HTML
Converta caracteres especiais em entidades HTML com formatos nomeados, decimais e hexadecimais para prevenir ataques XSS
Codificador/Decodificador Base64
Codifique e decodifique strings Base64 rapidamente, suportando conversão de texto e arquivo
Ferramenta Escape/Unescape
Escape e unescape strings entre múltiplos formatos incluindo JavaScript, JSON, HTML, XML, CSV, SQL e muito mais