CoderTools

Conversor de conjunto de caracteres

Conversão profissional de codificação com detecção automática

Caracteres de entrada: 0 Bytes de entrada: 0
Caracteres de saída: 0 Bytes de saída: 0

Documentação do conversor

O que é codificação de caracteres?

Codificação de caracteres é um sistema que mapeia caracteres para números (pontos de código) e depois para bytes. Diferentes codificações usam mapeamentos diferentes, por isso o texto pode aparecer corrompido quando aberto com a codificação errada.

Guia de uso

Modo conversão de texto

  1. Clique na aba 'Conversão de texto' para entrar no modo conversão de texto
  2. Selecione a codificação origem no menu suspenso, ou use 'Detectar auto' para identificar automaticamente a codificação
  3. Selecione a codificação destino (padrão é UTF-8, a codificação mais universal)
  4. Escolha o formato de entrada/saída: Texto simples, Base64, Hex, ou formato array C/C++
  5. Digite ou cole seu texto, depois clique em 'Converter'. Use 'Copiar' para copiar o resultado ou 'Baixar' para salvar

Modo conversão de arquivos

  1. Clique na aba 'Conversão de arquivos' para entrar no modo arquivo
  2. Arraste e solte arquivos na área de upload, ou clique para selecionar (suporta múltiplos arquivos, máx 10 MB cada)
  3. O sistema detectará automaticamente a codificação de cada arquivo, exibida na coluna 'Codificação origem'. Você pode modificar manualmente se necessário
  4. Selecione a codificação destino para todos os arquivos
  5. Clique em 'Converter todos' para converter, depois 'Baixar todos' para salvar os arquivos convertidos

Formatos de entrada/saída suportados

  • Texto simples - Conteúdo de texto normal, entrada direta ou colado
  • Base64 - String codificada em Base64, comumente usada em anexos de email e URLs de dados
  • Hex - Bytes hexadecimais contínuos, ex: 48656C6C6F
  • Hex com espaços - Bytes hexadecimais separados por espaços, ex: 48 65 6C 6C 6F
  • Array C/C++ - Formato array de bytes estilo C/C++, ex: 0x48,0x65,0x6C,0x6C,0x6F

Casos de uso comuns

Corrigir texto corrompido

Quando você receber arquivos de texto ou emails corrompidos, use esta ferramenta para converter da codificação original para a correta e restaurar o conteúdo legível.

Migração de banco de dados

Ao migrar dados entre diferentes sistemas de banco de dados ou servidores, use esta ferramenta para garantir a consistência da codificação e prevenir corrupção de dados.

Desenvolvimento web

Converta páginas web legadas para codificação UTF-8 para garantir exibição correta em navegadores modernos e diferentes plataformas.

Compartilhamento de arquivos multiplataforma

Converta arquivos entre sistemas Windows (GBK), macOS e Linux para garantir que o texto seja exibido corretamente em todas as plataformas.

Dicas

  • Use detecção automática quando não tiver certeza da codificação origem
  • Ative a visualização hex para ver os valores de bytes reais
  • Adicione BOM para arquivos UTF-8/UTF-16 que serão usados no Windows
  • Para conversão em lote, use a aba de arquivos
  • Ao converter entre codificações, alguns caracteres podem não existir na codificação destino e serão substituídos por '?' ou similar

Referência de codificações suportadas

Esta ferramenta suporta mais de 30 codificações de caracteres cobrindo os principais idiomas e regiões do mundo. Abaixo está uma referência detalhada para cada codificação suportada.

Codificações Unicode

Codificação Descrição Intervalo de bytes Especificação
UTF-8 Codificação Unicode de comprimento variável, a mais usada na web. Retrocompatível com ASCII. 1-4 bytes RFC 3629
UTF-16 LE UTF-16 Little Endian, comumente usado em sistemas Windows. Usa 2 ou 4 bytes por caractere. 2/4 bytes RFC 2781
UTF-16 BE UTF-16 Big Endian, usado em alguns protocolos de rede e Java. Usa 2 ou 4 bytes por caractere. 2/4 bytes RFC 2781

Codificações chinesas

Codificação Descrição Uso Especificação
GBK Extensão do GB2312, suporta 21.003 caracteres chineses incluindo caracteres tradicionais. Comum em Windows chinês simplificado. Windows chinês simplificado, sites antigos IANA GBK
GB2312 Padrão nacional chinês original (1980), suporta 6.763 caracteres chineses simplificados e 682 símbolos. Sistemas legados, emails GB 2312-1980
GB18030 Último padrão nacional chinês, obrigatório na China. Suporta todos os caracteres Unicode incluindo línguas minoritárias. Sistemas chineses modernos, documentos governamentais GB 18030-2005
Big5 Codificação chinesa tradicional, principalmente usada em Taiwan e Hong Kong. Contém 13.060 caracteres tradicionais. Sites de Taiwan, Hong Kong IANA Charset

Codificações japonesas

Codificação Descrição Uso Especificação
Shift_JIS Codificação japonesa da Microsoft, suporta os conjuntos de caracteres JIS X 0201 e JIS X 0208. Windows, sites antigos, jogos IANA Charset
EUC-JP Extended Unix Code para japonês, codificação de comprimento variável compatível com ASCII. Sistemas Unix/Linux, sites antigos IANA Charset
ISO-2022-JP Codificação japonesa de 7 bits usando sequências de escape. Também conhecida como codificação JIS. Emails japoneses, sistemas antigos RFC 1468

Codificações coreanas

Codificação Descrição Uso Especificação
EUC-KR Extended Unix Code para coreano, baseado no padrão KS X 1001. Suporta 8.822 caracteres coreanos (Hangul + Hanja). Sites coreanos, sistemas legados RFC 1557

Codificações da Europa Ocidental

Codificação Descrição Idiomas Especificação
ISO-8859-1 Também conhecido como Latin-1, primeira parte da série ISO-8859. Cobre 191 caracteres de idiomas da Europa Ocidental. Inglês, francês, alemão, espanhol, português, italiano ISO/IEC 8859-1
ISO-8859-15 Latin-9, atualiza Latin-1 com símbolo do Euro (€) e caracteres adicionais franceses/finlandeses. Idiomas da Europa Ocidental com símbolo do Euro ISO/IEC 8859-15
Windows-1252 Extensão da Microsoft ao Latin-1, adiciona caracteres tipográficos como aspas curvas e travessões. Idiomas da Europa Ocidental no Windows Unicode.org

Codificações cirílicas

Codificação Descrição Idiomas Especificação
Windows-1251 Codificação cirílica da Microsoft para Windows, suporta russo e outros idiomas baseados em cirílico. Russo, ucraniano, búlgaro, sérvio Unicode.org
KOI8-R Codificação cirílica de 8 bits, projetada para russo. Caracteres permanecem legíveis mesmo se o bit alto for removido. Russo RFC 1489
ISO-8859-5 Codificação cirílica padrão ISO, parte da série ISO-8859. Suporta caracteres cirílicos básicos. Russo, búlgaro, macedônio, sérvio ISO/IEC 8859-5

Outras codificações

Codificação Descrição Uso Especificação
ASCII American Standard Code for Information Interchange, a base da maioria das codificações modernas. Codificação de 7 bits com 128 caracteres. Texto inglês básico, programação RFC 20
Macintosh Codificação de caracteres original da Apple para Mac OS Classic, também conhecida como Mac Roman. Arquivos Mac antigos, aplicações Mac antigas Unicode.org

Ferramentas Relacionadas