Conversor de conjunto de caracteres
Conversão profissional de codificação com detecção automática
Saída hexadecimal
Arraste arquivos aqui ou clique para selecionar
Múltiplos arquivos suportados (Arquivos grandes podem afetar o desempenho)
Detecção automática ou seleção manual da codificação para arquivos carregados
Arquivos selecionados
| Nome do arquivo | Tamanho | Codificação origem | Visualizar | Status |
|---|
Documentação do conversor
O que é codificação de caracteres?
Codificação de caracteres é um sistema que mapeia caracteres para números (pontos de código) e depois para bytes. Diferentes codificações usam mapeamentos diferentes, por isso o texto pode aparecer corrompido quando aberto com a codificação errada.
Guia de uso
Modo conversão de texto
- Clique na aba 'Conversão de texto' para entrar no modo conversão de texto
- Selecione a codificação origem no menu suspenso, ou use 'Detectar auto' para identificar automaticamente a codificação
- Selecione a codificação destino (padrão é UTF-8, a codificação mais universal)
- Escolha o formato de entrada/saída: Texto simples, Base64, Hex, ou formato array C/C++
- Digite ou cole seu texto, depois clique em 'Converter'. Use 'Copiar' para copiar o resultado ou 'Baixar' para salvar
Modo conversão de arquivos
- Clique na aba 'Conversão de arquivos' para entrar no modo arquivo
- Arraste e solte arquivos na área de upload, ou clique para selecionar (suporta múltiplos arquivos)
- O sistema detectará automaticamente a codificação de cada arquivo, exibida na coluna 'Codificação origem'. Você pode modificar manualmente se necessário
- Selecione a codificação destino para todos os arquivos
- Clique em 'Converter todos' para converter, depois 'Baixar todos' para salvar os arquivos convertidos
Formatos de entrada/saída suportados
- Texto simples - Conteúdo de texto normal, entrada direta ou colado
- Base64 - String codificada em Base64, comumente usada em anexos de email e URLs de dados
- Hex - Bytes hexadecimais contínuos, ex: 48656C6C6F
- Hex com espaços - Bytes hexadecimais separados por espaços, ex: 48 65 6C 6C 6F
- Array C/C++ - Formato array de bytes estilo C/C++, ex: 0x48,0x65,0x6C,0x6C,0x6F
Casos de uso comuns
Corrigir texto corrompido
Quando você receber arquivos de texto ou emails corrompidos, use esta ferramenta para converter da codificação original para a correta e restaurar o conteúdo legível.
Migração de banco de dados
Ao migrar dados entre diferentes sistemas de banco de dados ou servidores, use esta ferramenta para garantir a consistência da codificação e prevenir corrupção de dados.
Desenvolvimento web
Converta páginas web legadas para codificação UTF-8 para garantir exibição correta em navegadores modernos e diferentes plataformas.
Compartilhamento de arquivos multiplataforma
Converta arquivos entre sistemas Windows (GBK), macOS e Linux para garantir que o texto seja exibido corretamente em todas as plataformas.
Dicas
- Use detecção automática quando não tiver certeza da codificação origem
- Ative a visualização hex para ver os valores de bytes reais
- Adicione BOM para arquivos UTF-8/UTF-16 que serão usados no Windows
- Para conversão em lote, use a aba de arquivos
- Ao converter entre codificações, alguns caracteres podem não existir na codificação destino e serão substituídos por '?' ou similar
Referência de codificações suportadas
Esta ferramenta suporta mais de 30 codificações de caracteres cobrindo os principais idiomas e regiões do mundo. Abaixo está uma referência detalhada para cada codificação suportada.
Codificações Unicode
| Codificação | Descrição | Intervalo de bytes | Especificação |
|---|---|---|---|
| UTF-8 | Codificação Unicode de comprimento variável, a mais usada na web. Retrocompatível com ASCII. | 1-4 bytes | RFC 3629 |
| UTF-16 LE | UTF-16 Little Endian, comumente usado em sistemas Windows. Usa 2 ou 4 bytes por caractere. | 2/4 bytes | RFC 2781 |
| UTF-16 BE | UTF-16 Big Endian, usado em alguns protocolos de rede e Java. Usa 2 ou 4 bytes por caractere. | 2/4 bytes | RFC 2781 |
Codificações chinesas
| Codificação | Descrição | Uso | Especificação |
|---|---|---|---|
| GBK | Extensão do GB2312, suporta 21.003 caracteres chineses incluindo caracteres tradicionais. Comum em Windows chinês simplificado. | Windows chinês simplificado, sites antigos | IANA GBK |
| GB2312 | Padrão nacional chinês original (1980), suporta 6.763 caracteres chineses simplificados e 682 símbolos. | Sistemas legados, emails | GB 2312-1980 |
| GB18030 | Último padrão nacional chinês, obrigatório na China. Suporta todos os caracteres Unicode incluindo línguas minoritárias. | Sistemas chineses modernos, documentos governamentais | GB 18030-2005 |
| Big5 | Codificação chinesa tradicional, principalmente usada em Taiwan e Hong Kong. Contém 13.060 caracteres tradicionais. | Sites de Taiwan, Hong Kong | IANA Charset |
Codificações japonesas
| Codificação | Descrição | Uso | Especificação |
|---|---|---|---|
| Shift_JIS | Codificação japonesa da Microsoft, suporta os conjuntos de caracteres JIS X 0201 e JIS X 0208. | Windows, sites antigos, jogos | IANA Charset |
| EUC-JP | Extended Unix Code para japonês, codificação de comprimento variável compatível com ASCII. | Sistemas Unix/Linux, sites antigos | IANA Charset |
| ISO-2022-JP | Codificação japonesa de 7 bits usando sequências de escape. Também conhecida como codificação JIS. | Emails japoneses, sistemas antigos | RFC 1468 |
Codificações coreanas
| Codificação | Descrição | Uso | Especificação |
|---|---|---|---|
| EUC-KR | Extended Unix Code para coreano, baseado no padrão KS X 1001. Suporta 8.822 caracteres coreanos (Hangul + Hanja). | Sites coreanos, sistemas legados | RFC 1557 |
Codificações da Europa Ocidental
| Codificação | Descrição | Idiomas | Especificação |
|---|---|---|---|
| ISO-8859-1 | Também conhecido como Latin-1, primeira parte da série ISO-8859. Cobre 191 caracteres de idiomas da Europa Ocidental. | Inglês, francês, alemão, espanhol, português, italiano | ISO/IEC 8859-1 |
| ISO-8859-15 | Latin-9, atualiza Latin-1 com símbolo do Euro (€) e caracteres adicionais franceses/finlandeses. | Idiomas da Europa Ocidental com símbolo do Euro | ISO/IEC 8859-15 |
| Windows-1252 | Extensão da Microsoft ao Latin-1, adiciona caracteres tipográficos como aspas curvas e travessões. | Idiomas da Europa Ocidental no Windows | Unicode.org |
Codificações cirílicas
| Codificação | Descrição | Idiomas | Especificação |
|---|---|---|---|
| Windows-1251 | Codificação cirílica da Microsoft para Windows, suporta russo e outros idiomas baseados em cirílico. | Russo, ucraniano, búlgaro, sérvio | Unicode.org |
| KOI8-R | Codificação cirílica de 8 bits, projetada para russo. Caracteres permanecem legíveis mesmo se o bit alto for removido. | Russo | RFC 1489 |
| ISO-8859-5 | Codificação cirílica padrão ISO, parte da série ISO-8859. Suporta caracteres cirílicos básicos. | Russo, búlgaro, macedônio, sérvio | ISO/IEC 8859-5 |
Outras codificações
| Codificação | Descrição | Uso | Especificação |
|---|---|---|---|
| ASCII | American Standard Code for Information Interchange, a base da maioria das codificações modernas. Codificação de 7 bits com 128 caracteres. | Texto inglês básico, programação | RFC 20 |
| Macintosh | Codificação de caracteres original da Apple para Mac OS Classic, também conhecida como Mac Roman. | Arquivos Mac antigos, aplicações Mac antigas | Unicode.org |
Ferramentas Relacionadas
Conversor de Codificação de Texto
Converta texto entre Hex, Binário, Unicode, ASCII, Base64 e muitos outros formatos de codificação
Codificador/Decodificador Base64
Codifique e decodifique strings Base64 rapidamente, suportando conversão de texto e arquivo
Codificador/Decodificador URL
Codifique e decodifique URLs para garantir conformidade e usabilidade
Codificador/Decodificador HTML
Converta caracteres especiais em entidades HTML com formatos nomeados, decimais e hexadecimais para prevenir ataques XSS