Conversor de conjunto de caracteres
Conversão profissional de codificação com detecção automática
Saída hexadecimal
Arraste arquivos aqui ou clique para selecionar
Múltiplos arquivos suportados, máx 10 MB cada
Detecção automática ou seleção manual da codificação para arquivos carregados
Arquivos selecionados
| Nome do arquivo | Tamanho | Codificação origem | Visualizar | Status |
|---|
Documentação do conversor
O que é codificação de caracteres?
Codificação de caracteres é um sistema que mapeia caracteres para números (pontos de código) e depois para bytes. Diferentes codificações usam mapeamentos diferentes, por isso o texto pode aparecer corrompido quando aberto com a codificação errada.
Guia de uso
Modo conversão de texto
- Clique na aba 'Conversão de texto' para entrar no modo conversão de texto
- Selecione a codificação origem no menu suspenso, ou use 'Detectar auto' para identificar automaticamente a codificação
- Selecione a codificação destino (padrão é UTF-8, a codificação mais universal)
- Escolha o formato de entrada/saída: Texto simples, Base64, Hex, ou formato array C/C++
- Digite ou cole seu texto, depois clique em 'Converter'. Use 'Copiar' para copiar o resultado ou 'Baixar' para salvar
Modo conversão de arquivos
- Clique na aba 'Conversão de arquivos' para entrar no modo arquivo
- Arraste e solte arquivos na área de upload, ou clique para selecionar (suporta múltiplos arquivos, máx 10 MB cada)
- O sistema detectará automaticamente a codificação de cada arquivo, exibida na coluna 'Codificação origem'. Você pode modificar manualmente se necessário
- Selecione a codificação destino para todos os arquivos
- Clique em 'Converter todos' para converter, depois 'Baixar todos' para salvar os arquivos convertidos
Formatos de entrada/saída suportados
- Texto simples - Conteúdo de texto normal, entrada direta ou colado
- Base64 - String codificada em Base64, comumente usada em anexos de email e URLs de dados
- Hex - Bytes hexadecimais contínuos, ex: 48656C6C6F
- Hex com espaços - Bytes hexadecimais separados por espaços, ex: 48 65 6C 6C 6F
- Array C/C++ - Formato array de bytes estilo C/C++, ex: 0x48,0x65,0x6C,0x6C,0x6F
Casos de uso comuns
Corrigir texto corrompido
Quando você receber arquivos de texto ou emails corrompidos, use esta ferramenta para converter da codificação original para a correta e restaurar o conteúdo legível.
Migração de banco de dados
Ao migrar dados entre diferentes sistemas de banco de dados ou servidores, use esta ferramenta para garantir a consistência da codificação e prevenir corrupção de dados.
Desenvolvimento web
Converta páginas web legadas para codificação UTF-8 para garantir exibição correta em navegadores modernos e diferentes plataformas.
Compartilhamento de arquivos multiplataforma
Converta arquivos entre sistemas Windows (GBK), macOS e Linux para garantir que o texto seja exibido corretamente em todas as plataformas.
Dicas
- Use detecção automática quando não tiver certeza da codificação origem
- Ative a visualização hex para ver os valores de bytes reais
- Adicione BOM para arquivos UTF-8/UTF-16 que serão usados no Windows
- Para conversão em lote, use a aba de arquivos
- Ao converter entre codificações, alguns caracteres podem não existir na codificação destino e serão substituídos por '?' ou similar
Referência de codificações suportadas
Esta ferramenta suporta mais de 30 codificações de caracteres cobrindo os principais idiomas e regiões do mundo. Abaixo está uma referência detalhada para cada codificação suportada.
Codificações Unicode
| Codificação | Descrição | Intervalo de bytes | Especificação |
|---|---|---|---|
| UTF-8 | Codificação Unicode de comprimento variável, a mais usada na web. Retrocompatível com ASCII. | 1-4 bytes | RFC 3629 |
| UTF-16 LE | UTF-16 Little Endian, comumente usado em sistemas Windows. Usa 2 ou 4 bytes por caractere. | 2/4 bytes | RFC 2781 |
| UTF-16 BE | UTF-16 Big Endian, usado em alguns protocolos de rede e Java. Usa 2 ou 4 bytes por caractere. | 2/4 bytes | RFC 2781 |
Codificações chinesas
| Codificação | Descrição | Uso | Especificação |
|---|---|---|---|
| GBK | Extensão do GB2312, suporta 21.003 caracteres chineses incluindo caracteres tradicionais. Comum em Windows chinês simplificado. | Windows chinês simplificado, sites antigos | IANA GBK |
| GB2312 | Padrão nacional chinês original (1980), suporta 6.763 caracteres chineses simplificados e 682 símbolos. | Sistemas legados, emails | GB 2312-1980 |
| GB18030 | Último padrão nacional chinês, obrigatório na China. Suporta todos os caracteres Unicode incluindo línguas minoritárias. | Sistemas chineses modernos, documentos governamentais | GB 18030-2005 |
| Big5 | Codificação chinesa tradicional, principalmente usada em Taiwan e Hong Kong. Contém 13.060 caracteres tradicionais. | Sites de Taiwan, Hong Kong | IANA Charset |
Codificações japonesas
| Codificação | Descrição | Uso | Especificação |
|---|---|---|---|
| Shift_JIS | Codificação japonesa da Microsoft, suporta os conjuntos de caracteres JIS X 0201 e JIS X 0208. | Windows, sites antigos, jogos | IANA Charset |
| EUC-JP | Extended Unix Code para japonês, codificação de comprimento variável compatível com ASCII. | Sistemas Unix/Linux, sites antigos | IANA Charset |
| ISO-2022-JP | Codificação japonesa de 7 bits usando sequências de escape. Também conhecida como codificação JIS. | Emails japoneses, sistemas antigos | RFC 1468 |
Codificações coreanas
| Codificação | Descrição | Uso | Especificação |
|---|---|---|---|
| EUC-KR | Extended Unix Code para coreano, baseado no padrão KS X 1001. Suporta 8.822 caracteres coreanos (Hangul + Hanja). | Sites coreanos, sistemas legados | RFC 1557 |
Codificações da Europa Ocidental
| Codificação | Descrição | Idiomas | Especificação |
|---|---|---|---|
| ISO-8859-1 | Também conhecido como Latin-1, primeira parte da série ISO-8859. Cobre 191 caracteres de idiomas da Europa Ocidental. | Inglês, francês, alemão, espanhol, português, italiano | ISO/IEC 8859-1 |
| ISO-8859-15 | Latin-9, atualiza Latin-1 com símbolo do Euro (€) e caracteres adicionais franceses/finlandeses. | Idiomas da Europa Ocidental com símbolo do Euro | ISO/IEC 8859-15 |
| Windows-1252 | Extensão da Microsoft ao Latin-1, adiciona caracteres tipográficos como aspas curvas e travessões. | Idiomas da Europa Ocidental no Windows | Unicode.org |
Codificações cirílicas
| Codificação | Descrição | Idiomas | Especificação |
|---|---|---|---|
| Windows-1251 | Codificação cirílica da Microsoft para Windows, suporta russo e outros idiomas baseados em cirílico. | Russo, ucraniano, búlgaro, sérvio | Unicode.org |
| KOI8-R | Codificação cirílica de 8 bits, projetada para russo. Caracteres permanecem legíveis mesmo se o bit alto for removido. | Russo | RFC 1489 |
| ISO-8859-5 | Codificação cirílica padrão ISO, parte da série ISO-8859. Suporta caracteres cirílicos básicos. | Russo, búlgaro, macedônio, sérvio | ISO/IEC 8859-5 |
Outras codificações
| Codificação | Descrição | Uso | Especificação |
|---|---|---|---|
| ASCII | American Standard Code for Information Interchange, a base da maioria das codificações modernas. Codificação de 7 bits com 128 caracteres. | Texto inglês básico, programação | RFC 20 |
| Macintosh | Codificação de caracteres original da Apple para Mac OS Classic, também conhecida como Mac Roman. | Arquivos Mac antigos, aplicações Mac antigas | Unicode.org |
Ferramentas Relacionadas
Conversor de Codificação de Texto
Converta texto entre Hex, Binário, Unicode, ASCII, Base64 e muitos outros formatos de codificação
Codificador/Decodificador Base64
Codifique e decodifique strings Base64 rapidamente, suportando conversão de texto e arquivo
Codificador/Decodificador URL
Codifique e decodifique URLs para garantir conformidade e usabilidade
Codificador/Decodificador HTML
Converta caracteres especiais em entidades HTML com formatos nomeados, decimais e hexadecimais para prevenir ataques XSS