Zeichensatz-Konverter
Professionelle Zeichenkodierungskonvertierung mit automatischer Erkennung
Hexadezimale Ausgabe
Dateien hierher ziehen oder klicken zum Auswählen
Mehrere Dateien unterstützt (Große Dateien können die Leistung beeinträchtigen)
Auto-Erkennung oder manuelle Auswahl der Kodierung für hochgeladene Dateien
Ausgewählte Dateien
| Dateiname | Größe | Quellkodierung | Vorschau | Status |
|---|
Konverter-Dokumentation
Was ist Zeichenkodierung?
Zeichenkodierung ist ein System, das Zeichen auf Zahlen (Codepunkte) und dann auf Bytes abbildet. Verschiedene Kodierungen verwenden unterschiedliche Zuordnungen, weshalb Text verstümmelt erscheinen kann, wenn er mit der falschen Kodierung geöffnet wird.
Benutzungsanleitung
Textkonvertierungsmodus
- Klicken Sie auf den Tab 'Textkonvertierung', um den Textkonvertierungsmodus zu betreten
- Wählen Sie die Quellkodierung aus dem Dropdown, oder verwenden Sie 'Auto-Erkennung' zur automatischen Identifikation
- Wählen Sie die Zielkodierung (Standard ist UTF-8, die universellste Kodierung)
- Wählen Sie das Ein-/Ausgabeformat: Klartext, Base64, Hex oder C/C++ Array-Format
- Geben Sie Ihren Text ein oder fügen Sie ihn ein, dann klicken Sie auf 'Konvertieren'. Verwenden Sie 'Kopieren' für das Ergebnis oder 'Herunterladen' zum Speichern
Dateikonvertierungsmodus
- Klicken Sie auf den Tab 'Dateikonvertierung', um den Dateimodus zu betreten
- Ziehen Sie Dateien in den Upload-Bereich oder klicken Sie zur Auswahl (unterstützt mehrere Dateien)
- Das System erkennt automatisch die Kodierung jeder Datei, angezeigt in der Spalte 'Quellkodierung'. Sie können bei Bedarf manuell ändern
- Wählen Sie die Zielkodierung für alle Dateien
- Klicken Sie auf 'Alle konvertieren' zum Konvertieren, dann 'Alle herunterladen' zum Speichern der konvertierten Dateien
Unterstützte Ein-/Ausgabeformate
- Klartext - Normaler Textinhalt, direkte Eingabe oder Einfügen
- Base64 - Base64-kodierte Zeichenkette, häufig in E-Mail-Anhängen und Daten-URLs verwendet
- Hex - Kontinuierliche Hexadezimal-Bytes, z.B. 48656C6C6F
- Hex mit Leerzeichen - Durch Leerzeichen getrennte Hexadezimal-Bytes, z.B. 48 65 6C 6C 6F
- C/C++ Array - C/C++-Stil Byte-Array-Format, z.B. 0x48,0x65,0x6C,0x6C,0x6F
Häufige Anwendungsfälle
Verstümmelten Text reparieren
Wenn Sie verstümmelte Textdateien oder E-Mails erhalten, verwenden Sie dieses Tool, um von der ursprünglichen Kodierung in die richtige zu konvertieren und den lesbaren Inhalt wiederherzustellen.
Datenbankmigration
Bei der Migration von Daten zwischen verschiedenen Datenbanksystemen oder Servern verwenden Sie dieses Tool, um die Konsistenz der Zeichenkodierung sicherzustellen und Datenverlust zu vermeiden.
Webentwicklung
Konvertieren Sie ältere Webseiten in UTF-8-Kodierung, um eine korrekte Anzeige in modernen Browsern und auf verschiedenen Plattformen sicherzustellen.
Plattformübergreifender Dateiaustausch
Konvertieren Sie Dateien zwischen Windows (GBK), macOS und Linux-Systemen, um sicherzustellen, dass Text auf allen Plattformen korrekt angezeigt wird.
Tipps
- Verwenden Sie Auto-Erkennung, wenn Sie sich bei der Quellkodierung unsicher sind
- Aktivieren Sie die Hex-Ansicht, um die tatsächlichen Byte-Werte zu sehen
- Fügen Sie BOM für UTF-8/UTF-16-Dateien hinzu, die unter Windows verwendet werden
- Für Stapelkonvertierung verwenden Sie den Datei-Tab
- Bei der Konvertierung zwischen Kodierungen können einige Zeichen in der Zielkodierung nicht existieren und werden durch '?' oder ähnliches ersetzt
Unterstützte Zeichenkodierungen
Dieses Tool unterstützt über 30 Zeichenkodierungen, die die wichtigsten Sprachen und Regionen weltweit abdecken. Hier finden Sie eine detaillierte Referenz für jede unterstützte Kodierung.
Unicode-Kodierungen
| Kodierung | Beschreibung | Byte-Bereich | Spezifikation |
|---|---|---|---|
| UTF-8 | Unicode-Kodierung mit variabler Länge, die am weitesten verbreitete Kodierung im Web. Abwärtskompatibel mit ASCII. | 1-4 bytes | RFC 3629 |
| UTF-16 LE | UTF-16 Little Endian, häufig auf Windows-Systemen verwendet. Verwendet 2 oder 4 Bytes pro Zeichen. | 2/4 bytes | RFC 2781 |
| UTF-16 BE | UTF-16 Big Endian, verwendet in einigen Netzwerkprotokollen und Java. Verwendet 2 oder 4 Bytes pro Zeichen. | 2/4 bytes | RFC 2781 |
Chinesische Kodierungen
| Kodierung | Beschreibung | Verwendung | Spezifikation |
|---|---|---|---|
| GBK | Erweiterung von GB2312, unterstützt 21.003 chinesische Zeichen einschließlich traditioneller Zeichen. Üblich auf Windows mit vereinfachtem Chinesisch. | Windows vereinfachtes Chinesisch, ältere Websites | IANA GBK |
| GB2312 | Ursprünglicher chinesischer Nationalstandard (1980), unterstützt 6.763 vereinfachte chinesische Zeichen und 682 Symbole. | Legacy-Systeme, E-Mails | GB 2312-1980 |
| GB18030 | Neuester chinesischer Nationalstandard, in China verpflichtend. Unterstützt alle Unicode-Zeichen einschließlich Minderheitensprachen. | Moderne chinesische Systeme, Behördendokumente | GB 18030-2005 |
| Big5 | Traditionelle chinesische Kodierung, hauptsächlich in Taiwan und Hongkong verwendet. Enthält 13.060 traditionelle Zeichen. | Websites Taiwan, Hongkong | IANA Charset |
Japanische Kodierungen
| Kodierung | Beschreibung | Verwendung | Spezifikation |
|---|---|---|---|
| Shift_JIS | Microsofts japanische Kodierung, unterstützt JIS X 0201 und JIS X 0208 Zeichensätze. | Windows, ältere Websites, Spiele | IANA Charset |
| EUC-JP | Extended Unix Code für Japanisch, Kodierung mit variabler Länge, kompatibel mit ASCII. | Unix/Linux-Systeme, ältere Websites | IANA Charset |
| ISO-2022-JP | 7-Bit japanische Kodierung mit Escape-Sequenzen. Auch als JIS-Kodierung bekannt. | Japanische E-Mails, ältere Systeme | RFC 1468 |
Koreanische Kodierungen
| Kodierung | Beschreibung | Verwendung | Spezifikation |
|---|---|---|---|
| EUC-KR | Extended Unix Code für Koreanisch, basierend auf dem Standard KS X 1001. Unterstützt 8.822 koreanische Zeichen (Hangul + Hanja). | Koreanische Websites, Legacy-Systeme | RFC 1557 |
Westeuropäische Kodierungen
| Kodierung | Beschreibung | Sprachen | Spezifikation |
|---|---|---|---|
| ISO-8859-1 | Auch bekannt als Latin-1, der erste Teil der ISO-8859-Serie. Deckt 191 Zeichen westeuropäischer Sprachen ab. | Englisch, Französisch, Deutsch, Spanisch, Portugiesisch, Italienisch | ISO/IEC 8859-1 |
| ISO-8859-15 | Latin-9, aktualisiert Latin-1 mit Euro-Zeichen (€) und zusätzlichen französischen/finnischen Zeichen. | Westeuropäische Sprachen mit Euro-Symbol | ISO/IEC 8859-15 |
| Windows-1252 | Microsofts Erweiterung von Latin-1, fügt typografische Zeichen wie Anführungszeichen und Gedankenstriche hinzu. | Westeuropäische Sprachen unter Windows | Unicode.org |
Kyrillische Kodierungen
| Kodierung | Beschreibung | Sprachen | Spezifikation |
|---|---|---|---|
| Windows-1251 | Microsofts kyrillische Kodierung für Windows, unterstützt Russisch und andere kyrillisch-basierte Sprachen. | Russisch, Ukrainisch, Bulgarisch, Serbisch | Unicode.org |
| KOI8-R | 8-Bit kyrillische Kodierung, für Russisch entwickelt. Zeichen bleiben lesbar, selbst wenn das hohe Bit entfernt wird. | Russisch | RFC 1489 |
| ISO-8859-5 | ISO-Standard kyrillische Kodierung, Teil der ISO-8859-Serie. Unterstützt grundlegende kyrillische Zeichen. | Russisch, Bulgarisch, Mazedonisch, Serbisch | ISO/IEC 8859-5 |
Andere Kodierungen
| Kodierung | Beschreibung | Verwendung | Spezifikation |
|---|---|---|---|
| ASCII | American Standard Code for Information Interchange, die Grundlage der meisten modernen Kodierungen. 7-Bit-Kodierung mit 128 Zeichen. | Einfacher englischer Text, Programmierung | RFC 20 |
| Macintosh | Apples ursprüngliche Zeichenkodierung für Mac OS Classic, auch bekannt als Mac Roman. | Ältere Mac-Dateien, alte Mac-Anwendungen | Unicode.org |
Häufig gestellte Fragen
Was ist eine Zeichenkodierung und warum ist sie wichtig?
Eine Zeichenkodierung ist eine Zuordnung zwischen Zeichen (Buchstaben, Symbolen, Ziffern) und numerischen Bytewerten. Computer speichern Text als Zahlen, und die Kodierung gibt an, welche Zahl welches Zeichen repräsentiert. Wenn Sender und Empfänger verschiedene Kodierungen verwenden, werden Bytes falsch interpretiert und unlesbarer Text erscheint — ein Problem, das manchmal als Mojibake bezeichnet wird. UTF-8 ist der Webstandard und unterstützt nahezu alle Sprachen.
Was ist der Unterschied zwischen GBK, GB2312 und GB18030?
Alle drei sind chinesische Nationalkodierungsstandards. GB2312 (1981) umfasst 6.763 vereinfachte chinesische Zeichen. GBK (1993) ist eine Obermenge von GB2312 und fügt etwa 21.000 Zeichen hinzu, einschließlich traditioneller Schriftzeichen. GB18030 (2005) ist der aktuelle verbindliche Nationalstandard, der alle Unicode-Zeichen umfasst und damit die vollständigste der drei Kodierungen ist.
Warum erscheint mein konvertierter Text immer noch unleserlich?
Unleserlicher Text nach der Konvertierung bedeutet meist, dass die falsche Quellkodierung gewählt wurde. Wenn die Originaldatei als GBK gespeichert wurde, Sie aber UTF-8 als Quelle ausgewählt haben, werden die Bytes falsch interpretiert. Versuchen Sie verschiedene Quellkodierungen: Für asiatische Sprachen sind GBK, Shift-JIS, EUC-KR und Big5 üblich. Für europäischen Text eignen sich Windows-1252 oder ISO-8859-1.
Was ist Shift-JIS und wann wird es verwendet?
Shift-JIS ist eine japanische Zeichenkodierung aus den 1980er Jahren, die von Microsoft Windows und vielen älteren japanischen Anwendungen und Websites verwendet wurde. Moderne Systeme bevorzugen UTF-8, aber Shift-JIS findet sich noch in alten Datenbanken, eingebetteten Systemen und älteren Spiel-ROMs.
Kann ich zwischen UTF-8 und UTF-16 konvertieren?
Ja. UTF-8 und UTF-16 kodieren dieselben Unicode-Codepunkte — sie sind nur unterschiedliche Byte-Darstellungen derselben Zeichen. UTF-8 verwendet 1 bis 4 Bytes pro Zeichen und ist kompakt für ASCII-Text. UTF-16 verwendet 2 oder 4 Bytes pro Zeichen und wird intern von Windows, Java und JavaScript-Engines verwendet. Die Konvertierung zwischen beiden ändert nur die Byte-Darstellung, nicht die Zeichen selbst.
Verwandte Tools
Text-Kodierungs-Konverter
Konvertieren Sie Text zwischen Hex, Binär, Unicode, ASCII, Base64 und vielen anderen Kodierungsformaten
Base64-Kodierer/Dekodierer
Schnelles Kodieren und Dekodieren von Base64-Strings mit Unterstützung für Text- und Dateikonvertierung
URL-Kodierer/Dekodierer
Kodieren und dekodieren Sie URLs zur Sicherstellung der Konformität und Nutzbarkeit
HTML-Kodierer/Dekodierer
Konvertieren Sie Sonderzeichen in HTML-Entitäten mit benannten, dezimalen und hexadezimalen Formaten zur Verhinderung von XSS-Angriffen