CoderTools

Conversor de Codificação de Texto

Converta texto entre Hex, Binário, Unicode e mais formatos de codificação

Delimitador de Byte:
Adicionar Prefixo:

Documentação do Conversor de Codificação

O que é Codificação de Caracteres?

A codificação de caracteres é um sistema que mapeia caracteres para números que os computadores podem processar. Diferentes esquemas de codificação são usados para diferentes propósitos, como armazenar, transmitir ou exibir dados de texto. Codificações comuns incluem ASCII, UTF-8, UTF-16, etc.

Formatos Suportados

Hexadecimal (Hex)

Representação hexadecimal usando dígitos 0-9 e letras A-F. Cada byte é representado por dois caracteres hexadecimais. Amplamente usado em programação e depuração.

Binário

Representação binária usando apenas 0 e 1. Cada byte é representado por 8 bits. Esta é a representação de dados fundamental usada pelos computadores.

Escape Unicode

Sequências de escape Unicode no formato \uXXXX, comumente usadas em linguagens de programação como JavaScript e JSON para representar caracteres Unicode.

Entidade HTML

Codificação de entidades HTML, incluindo entidades nomeadas (como &) e entidades numéricas (como & ou &). Usado para exibir caracteres especiais com segurança em HTML.

Punycode

Esquema de codificação para Nomes de Domínio Internacionalizados (IDN). Converte caracteres Unicode em codificação compatível com ASCII, prefixado com xn--.

Casos de Uso Comuns

  • Visualizar representação hexadecimal ou binária de caracteres durante a depuração
  • Lidar com codificação de dados em protocolos de rede
  • Analisar e corrigir problemas de codificação (mojibake)
  • Usar sequências de escape Unicode no código
  • Lidar com Nomes de Domínio Internacionalizados (IDN)
  • Escape de caracteres em HTML/XML

Conjunto de caracteres vs Formato de codificação

O conjunto de caracteres e o formato de codificação são dois conceitos diferentes. Um conjunto de caracteres define quais caracteres são usados em texto (como ASCII, GB2312, GBK, Unicode, etc.), enquanto um formato de codificação define como esses caracteres são armazenados em um computador (como UTF-8, UTF-16, etc.). Por exemplo, o mesmo texto pode ser codificado usando o conjunto de caracteres GB2312 como codificação GB2312, ou usando o conjunto de caracteres Unicode como UTF-8.

Se você precisar converter entre diferentes conjuntos de caracteres (como GBK, UTF-8, ISO-8859-1, etc.) em vez de apenas alterar o formato de codificação, use a ferramenta Conversor de conjunto de caracteres.

Perguntas frequentes

Qual é a diferença entre codificação e criptografia?

A codificação transforma dados em outra representação usando um esquema publicamente conhecido — não há chave secreta envolvida e o processo é totalmente reversível por qualquer pessoa. A criptografia embaralha dados usando uma chave secreta, então apenas quem tem a chave pode revertê-la. Base64 e hexadecimal são codificações; AES e RSA são algoritmos de criptografia.

Por que texto codificado em Base64 termina com = ou ==?

Base64 codifica cada 3 bytes de entrada em 4 caracteres de saída. Quando o comprimento da entrada não é divisível por 3, um ou dois caracteres = são adicionados como preenchimento para tornar a saída um múltiplo de 4. Um = indica 1 byte de preenchimento; dois == indicam 2 bytes. Algumas implementações omitem o preenchimento — ambas as formas são válidas se o decodificador suportar.

Qual é a diferença entre ASCII e Unicode?

ASCII é uma codificação de 7 bits que cobre 128 caracteres (A-Z, 0-9, pontuação comum). Unicode é um padrão de repertório de caracteres cobrindo mais de 140.000 caracteres em todos os sistemas de escrita. UTF-8, UTF-16 e UTF-32 são formas diferentes de codificar pontos de código Unicode como bytes — UTF-8 é retrocompatível com ASCII para os primeiros 128 pontos de código.

Quando devo usar codificação hexadecimal em vez de Base64?

Hexadecimal (Base16) representa cada byte como dois caracteres hexadecimais — verboso, mas imediatamente legível para inspeção técnica de fluxos de bytes, chaves criptográficas e valores de protocolos binários. Base64 é cerca de 33% mais compacto e é preferido para transmitir dados binários em JSON, e-mail ou URLs.

O que significa a notação U+XXXX para pontos de código Unicode?

U+XXXX é a notação padrão para um ponto de código Unicode, onde XXXX é um número hexadecimal. Por exemplo, U+0041 é a letra maiúscula latina A, e U+4E2D é o caractere chinês 中. Os pontos de código vão de U+0000 a U+10FFFF. O prefixo U+ foi introduzido pelo Unicode Consortium para distinguir pontos de código de valores de bytes.

Ferramentas Relacionadas

Menu Rápido

Nenhuma ferramenta recente