Conversor de conjunto de caracteres

Conversão profissional de codificação com detecção automática

Codificação origem

Codificação destino

Opções de conversão

Adicionar BOM (marca de ordem de bytes)

Remover BOM existente

Mostrar hex

Formato de entrada

Formato de saída

Texto de entrada

Caracteres de entrada: 0 Bytes de entrada: 0

Texto de saída

Caracteres de saída: 0 Bytes de saída: 0

Saída hexadecimal

🔒 100% Processamento localOs dados inseridos são processados inteiramente em seu navegador. Nenhum dado é enviado para qualquer servidor.

Arraste arquivos aqui ou clique para selecionar

Múltiplos arquivos suportados (Arquivos grandes podem afetar o desempenho)

Codificação origem

Detecção automática ou seleção manual da codificação para arquivos carregados

Codificação destino

Arquivos selecionados

Nome do arquivo	Tamanho	Codificação origem	Visualizar	Status

Documentação do conversor

O que é codificação de caracteres?

Codificação de caracteres é um sistema que mapeia caracteres para números (pontos de código) e depois para bytes. Diferentes codificações usam mapeamentos diferentes, por isso o texto pode aparecer corrompido quando aberto com a codificação errada.

Guia de uso

Modo conversão de texto

Clique na aba 'Conversão de texto' para entrar no modo conversão de texto
Selecione a codificação origem no menu suspenso, ou use 'Detectar auto' para identificar automaticamente a codificação
Selecione a codificação destino (padrão é UTF-8, a codificação mais universal)
Escolha o formato de entrada/saída: Texto simples, Base64, Hex, ou formato array C/C++
Digite ou cole seu texto, depois clique em 'Converter'. Use 'Copiar' para copiar o resultado ou 'Baixar' para salvar

Modo conversão de arquivos

Clique na aba 'Conversão de arquivos' para entrar no modo arquivo
Arraste e solte arquivos na área de upload, ou clique para selecionar (suporta múltiplos arquivos)
O sistema detectará automaticamente a codificação de cada arquivo, exibida na coluna 'Codificação origem'. Você pode modificar manualmente se necessário
Selecione a codificação destino para todos os arquivos
Clique em 'Converter todos' para converter, depois 'Baixar todos' para salvar os arquivos convertidos

Formatos de entrada/saída suportados

Texto simples - Conteúdo de texto normal, entrada direta ou colado
Base64 - String codificada em Base64, comumente usada em anexos de email e URLs de dados
Hex - Bytes hexadecimais contínuos, ex: 48656C6C6F
Hex com espaços - Bytes hexadecimais separados por espaços, ex: 48 65 6C 6C 6F
Array C/C++ - Formato array de bytes estilo C/C++, ex: 0x48,0x65,0x6C,0x6C,0x6F

Casos de uso comuns

Corrigir texto corrompido

Quando você receber arquivos de texto ou emails corrompidos, use esta ferramenta para converter da codificação original para a correta e restaurar o conteúdo legível.

Migração de banco de dados

Ao migrar dados entre diferentes sistemas de banco de dados ou servidores, use esta ferramenta para garantir a consistência da codificação e prevenir corrupção de dados.

Desenvolvimento web

Converta páginas web legadas para codificação UTF-8 para garantir exibição correta em navegadores modernos e diferentes plataformas.

Compartilhamento de arquivos multiplataforma

Converta arquivos entre sistemas Windows (GBK), macOS e Linux para garantir que o texto seja exibido corretamente em todas as plataformas.

Dicas

Use detecção automática quando não tiver certeza da codificação origem
Ative a visualização hex para ver os valores de bytes reais
Adicione BOM para arquivos UTF-8/UTF-16 que serão usados no Windows
Para conversão em lote, use a aba de arquivos
Ao converter entre codificações, alguns caracteres podem não existir na codificação destino e serão substituídos por '?' ou similar

Referência de codificações suportadas

Esta ferramenta suporta mais de 30 codificações de caracteres cobrindo os principais idiomas e regiões do mundo. Abaixo está uma referência detalhada para cada codificação suportada.

Codificações Unicode

Codificação	Descrição	Intervalo de bytes	Especificação
UTF-8	Codificação Unicode de comprimento variável, a mais usada na web. Retrocompatível com ASCII.	1-4 bytes	RFC 3629
UTF-16 LE	UTF-16 Little Endian, comumente usado em sistemas Windows. Usa 2 ou 4 bytes por caractere.	2/4 bytes	RFC 2781
UTF-16 BE	UTF-16 Big Endian, usado em alguns protocolos de rede e Java. Usa 2 ou 4 bytes por caractere.	2/4 bytes	RFC 2781

Codificações chinesas

Codificação	Descrição	Uso	Especificação
GBK	Extensão do GB2312, suporta 21.003 caracteres chineses incluindo caracteres tradicionais. Comum em Windows chinês simplificado.	Windows chinês simplificado, sites antigos	IANA GBK
GB2312	Padrão nacional chinês original (1980), suporta 6.763 caracteres chineses simplificados e 682 símbolos.	Sistemas legados, emails	GB 2312-1980
GB18030	Último padrão nacional chinês, obrigatório na China. Suporta todos os caracteres Unicode incluindo línguas minoritárias.	Sistemas chineses modernos, documentos governamentais	GB 18030-2005
Big5	Codificação chinesa tradicional, principalmente usada em Taiwan e Hong Kong. Contém 13.060 caracteres tradicionais.	Sites de Taiwan, Hong Kong	IANA Charset

Codificações japonesas

Codificação	Descrição	Uso	Especificação
Shift_JIS	Codificação japonesa da Microsoft, suporta os conjuntos de caracteres JIS X 0201 e JIS X 0208.	Windows, sites antigos, jogos	IANA Charset
EUC-JP	Extended Unix Code para japonês, codificação de comprimento variável compatível com ASCII.	Sistemas Unix/Linux, sites antigos	IANA Charset
ISO-2022-JP	Codificação japonesa de 7 bits usando sequências de escape. Também conhecida como codificação JIS.	Emails japoneses, sistemas antigos	RFC 1468

Codificações coreanas

Codificação	Descrição	Uso	Especificação
EUC-KR	Extended Unix Code para coreano, baseado no padrão KS X 1001. Suporta 8.822 caracteres coreanos (Hangul + Hanja).	Sites coreanos, sistemas legados	RFC 1557

Codificações da Europa Ocidental

Codificação	Descrição	Idiomas	Especificação
ISO-8859-1	Também conhecido como Latin-1, primeira parte da série ISO-8859. Cobre 191 caracteres de idiomas da Europa Ocidental.	Inglês, francês, alemão, espanhol, português, italiano	ISO/IEC 8859-1
ISO-8859-15	Latin-9, atualiza Latin-1 com símbolo do Euro (€) e caracteres adicionais franceses/finlandeses.	Idiomas da Europa Ocidental com símbolo do Euro	ISO/IEC 8859-15
Windows-1252	Extensão da Microsoft ao Latin-1, adiciona caracteres tipográficos como aspas curvas e travessões.	Idiomas da Europa Ocidental no Windows	Unicode.org

Codificações cirílicas

Codificação	Descrição	Idiomas	Especificação
Windows-1251	Codificação cirílica da Microsoft para Windows, suporta russo e outros idiomas baseados em cirílico.	Russo, ucraniano, búlgaro, sérvio	Unicode.org
KOI8-R	Codificação cirílica de 8 bits, projetada para russo. Caracteres permanecem legíveis mesmo se o bit alto for removido.	Russo	RFC 1489
ISO-8859-5	Codificação cirílica padrão ISO, parte da série ISO-8859. Suporta caracteres cirílicos básicos.	Russo, búlgaro, macedônio, sérvio	ISO/IEC 8859-5

Outras codificações

Codificação	Descrição	Uso	Especificação
ASCII	American Standard Code for Information Interchange, a base da maioria das codificações modernas. Codificação de 7 bits com 128 caracteres.	Texto inglês básico, programação	RFC 20
Macintosh	Codificação de caracteres original da Apple para Mac OS Classic, também conhecida como Mac Roman.	Arquivos Mac antigos, aplicações Mac antigas	Unicode.org

Perguntas frequentes

O que é uma codificação de caracteres e por que é importante?

Uma codificação de caracteres é um mapeamento entre caracteres (letras, símbolos, dígitos) e valores numéricos de bytes. O computador armazena texto como números, e a codificação indica qual número representa qual caractere. Quando o remetente e o destinatário usam codificações diferentes, os bytes são mal interpretados e o texto fica corrompido — um problema às vezes chamado de mojibake. UTF-8 é o padrão da web e suporta praticamente todos os idiomas.

Qual é a diferença entre GBK, GB2312 e GB18030?

Os três são padrões nacionais chineses de codificação. GB2312 (1981) cobre 6.763 caracteres chineses simplificados. GBK (1993) é um superconjunto do GB2312 e adiciona cerca de 21.000 caracteres, incluindo caracteres tradicionais. GB18030 (2005) é o padrão nacional obrigatório atual que inclui todos os caracteres Unicode, sendo o mais completo dos três.

Por que meu texto convertido ainda parece corrompido?

Texto ainda corrompido após a conversão geralmente indica que a codificação de origem errada foi selecionada. Se o arquivo original foi salvo em GBK mas você selecionou UTF-8 como origem, os bytes serão mal interpretados. Tente diferentes codificações de origem — as mais comuns para idiomas asiáticos são GBK, Shift-JIS, EUC-KR e Big5. Para texto europeu, tente Windows-1252 ou ISO-8859-1.

O que é Shift-JIS e quando é usado?

Shift-JIS é uma codificação de caracteres japonesa desenvolvida nos anos 1980. Era usada pelo Microsoft Windows e por muitos aplicativos e sites japoneses mais antigos. Os sistemas modernos preferem UTF-8, mas Shift-JIS ainda aparece em bancos de dados legados, sistemas embarcados e ROMs de jogos antigos.

Posso converter entre UTF-8 e UTF-16?

Sim. UTF-8 e UTF-16 codificam os mesmos pontos de código Unicode — são simplesmente representações de bytes diferentes dos mesmos caracteres. UTF-8 usa 1 a 4 bytes por caractere e é compacto para texto ASCII. UTF-16 usa 2 ou 4 bytes por caractere e é usado internamente pelo Windows, Java e motores JavaScript. Converter entre eles muda apenas a representação em bytes, não os caracteres.

Ferramentas Relacionadas

Conversor de Codificação de Texto

Converta texto entre Hex, Binário, Unicode, ASCII, Base64 e muitos outros formatos de codificação

Codificador/Decodificador Base64

Codifique e decodifique strings Base64 rapidamente, suportando conversão de texto e arquivo

Codificador/Decodificador URL

Codifique e decodifique URLs para garantir conformidade e usabilidade

Codificador/Decodificador HTML

Converta caracteres especiais em entidades HTML com formatos nomeados, decimais e hexadecimais para prevenir ataques XSS