CoderTools

Zeichensatz-Konverter

Professionelle Zeichenkodierungskonvertierung mit automatischer Erkennung

Eingabezeichen: 0 Eingabe-Bytes: 0
Ausgabezeichen: 0 Ausgabe-Bytes: 0

Konverter-Dokumentation

Was ist Zeichenkodierung?

Zeichenkodierung ist ein System, das Zeichen auf Zahlen (Codepunkte) und dann auf Bytes abbildet. Verschiedene Kodierungen verwenden unterschiedliche Zuordnungen, weshalb Text verstümmelt erscheinen kann, wenn er mit der falschen Kodierung geöffnet wird.

Benutzungsanleitung

Textkonvertierungsmodus

  1. Klicken Sie auf den Tab 'Textkonvertierung', um den Textkonvertierungsmodus zu betreten
  2. Wählen Sie die Quellkodierung aus dem Dropdown, oder verwenden Sie 'Auto-Erkennung' zur automatischen Identifikation
  3. Wählen Sie die Zielkodierung (Standard ist UTF-8, die universellste Kodierung)
  4. Wählen Sie das Ein-/Ausgabeformat: Klartext, Base64, Hex oder C/C++ Array-Format
  5. Geben Sie Ihren Text ein oder fügen Sie ihn ein, dann klicken Sie auf 'Konvertieren'. Verwenden Sie 'Kopieren' für das Ergebnis oder 'Herunterladen' zum Speichern

Dateikonvertierungsmodus

  1. Klicken Sie auf den Tab 'Dateikonvertierung', um den Dateimodus zu betreten
  2. Ziehen Sie Dateien in den Upload-Bereich oder klicken Sie zur Auswahl (unterstützt mehrere Dateien)
  3. Das System erkennt automatisch die Kodierung jeder Datei, angezeigt in der Spalte 'Quellkodierung'. Sie können bei Bedarf manuell ändern
  4. Wählen Sie die Zielkodierung für alle Dateien
  5. Klicken Sie auf 'Alle konvertieren' zum Konvertieren, dann 'Alle herunterladen' zum Speichern der konvertierten Dateien

Unterstützte Ein-/Ausgabeformate

  • Klartext - Normaler Textinhalt, direkte Eingabe oder Einfügen
  • Base64 - Base64-kodierte Zeichenkette, häufig in E-Mail-Anhängen und Daten-URLs verwendet
  • Hex - Kontinuierliche Hexadezimal-Bytes, z.B. 48656C6C6F
  • Hex mit Leerzeichen - Durch Leerzeichen getrennte Hexadezimal-Bytes, z.B. 48 65 6C 6C 6F
  • C/C++ Array - C/C++-Stil Byte-Array-Format, z.B. 0x48,0x65,0x6C,0x6C,0x6F

Häufige Anwendungsfälle

Verstümmelten Text reparieren

Wenn Sie verstümmelte Textdateien oder E-Mails erhalten, verwenden Sie dieses Tool, um von der ursprünglichen Kodierung in die richtige zu konvertieren und den lesbaren Inhalt wiederherzustellen.

Datenbankmigration

Bei der Migration von Daten zwischen verschiedenen Datenbanksystemen oder Servern verwenden Sie dieses Tool, um die Konsistenz der Zeichenkodierung sicherzustellen und Datenverlust zu vermeiden.

Webentwicklung

Konvertieren Sie ältere Webseiten in UTF-8-Kodierung, um eine korrekte Anzeige in modernen Browsern und auf verschiedenen Plattformen sicherzustellen.

Plattformübergreifender Dateiaustausch

Konvertieren Sie Dateien zwischen Windows (GBK), macOS und Linux-Systemen, um sicherzustellen, dass Text auf allen Plattformen korrekt angezeigt wird.

Tipps

  • Verwenden Sie Auto-Erkennung, wenn Sie sich bei der Quellkodierung unsicher sind
  • Aktivieren Sie die Hex-Ansicht, um die tatsächlichen Byte-Werte zu sehen
  • Fügen Sie BOM für UTF-8/UTF-16-Dateien hinzu, die unter Windows verwendet werden
  • Für Stapelkonvertierung verwenden Sie den Datei-Tab
  • Bei der Konvertierung zwischen Kodierungen können einige Zeichen in der Zielkodierung nicht existieren und werden durch '?' oder ähnliches ersetzt

Unterstützte Zeichenkodierungen

Dieses Tool unterstützt über 30 Zeichenkodierungen, die die wichtigsten Sprachen und Regionen weltweit abdecken. Hier finden Sie eine detaillierte Referenz für jede unterstützte Kodierung.

Unicode-Kodierungen

Kodierung Beschreibung Byte-Bereich Spezifikation
UTF-8 Unicode-Kodierung mit variabler Länge, die am weitesten verbreitete Kodierung im Web. Abwärtskompatibel mit ASCII. 1-4 bytes RFC 3629
UTF-16 LE UTF-16 Little Endian, häufig auf Windows-Systemen verwendet. Verwendet 2 oder 4 Bytes pro Zeichen. 2/4 bytes RFC 2781
UTF-16 BE UTF-16 Big Endian, verwendet in einigen Netzwerkprotokollen und Java. Verwendet 2 oder 4 Bytes pro Zeichen. 2/4 bytes RFC 2781

Chinesische Kodierungen

Kodierung Beschreibung Verwendung Spezifikation
GBK Erweiterung von GB2312, unterstützt 21.003 chinesische Zeichen einschließlich traditioneller Zeichen. Üblich auf Windows mit vereinfachtem Chinesisch. Windows vereinfachtes Chinesisch, ältere Websites IANA GBK
GB2312 Ursprünglicher chinesischer Nationalstandard (1980), unterstützt 6.763 vereinfachte chinesische Zeichen und 682 Symbole. Legacy-Systeme, E-Mails GB 2312-1980
GB18030 Neuester chinesischer Nationalstandard, in China verpflichtend. Unterstützt alle Unicode-Zeichen einschließlich Minderheitensprachen. Moderne chinesische Systeme, Behördendokumente GB 18030-2005
Big5 Traditionelle chinesische Kodierung, hauptsächlich in Taiwan und Hongkong verwendet. Enthält 13.060 traditionelle Zeichen. Websites Taiwan, Hongkong IANA Charset

Japanische Kodierungen

Kodierung Beschreibung Verwendung Spezifikation
Shift_JIS Microsofts japanische Kodierung, unterstützt JIS X 0201 und JIS X 0208 Zeichensätze. Windows, ältere Websites, Spiele IANA Charset
EUC-JP Extended Unix Code für Japanisch, Kodierung mit variabler Länge, kompatibel mit ASCII. Unix/Linux-Systeme, ältere Websites IANA Charset
ISO-2022-JP 7-Bit japanische Kodierung mit Escape-Sequenzen. Auch als JIS-Kodierung bekannt. Japanische E-Mails, ältere Systeme RFC 1468

Koreanische Kodierungen

Kodierung Beschreibung Verwendung Spezifikation
EUC-KR Extended Unix Code für Koreanisch, basierend auf dem Standard KS X 1001. Unterstützt 8.822 koreanische Zeichen (Hangul + Hanja). Koreanische Websites, Legacy-Systeme RFC 1557

Westeuropäische Kodierungen

Kodierung Beschreibung Sprachen Spezifikation
ISO-8859-1 Auch bekannt als Latin-1, der erste Teil der ISO-8859-Serie. Deckt 191 Zeichen westeuropäischer Sprachen ab. Englisch, Französisch, Deutsch, Spanisch, Portugiesisch, Italienisch ISO/IEC 8859-1
ISO-8859-15 Latin-9, aktualisiert Latin-1 mit Euro-Zeichen (€) und zusätzlichen französischen/finnischen Zeichen. Westeuropäische Sprachen mit Euro-Symbol ISO/IEC 8859-15
Windows-1252 Microsofts Erweiterung von Latin-1, fügt typografische Zeichen wie Anführungszeichen und Gedankenstriche hinzu. Westeuropäische Sprachen unter Windows Unicode.org

Kyrillische Kodierungen

Kodierung Beschreibung Sprachen Spezifikation
Windows-1251 Microsofts kyrillische Kodierung für Windows, unterstützt Russisch und andere kyrillisch-basierte Sprachen. Russisch, Ukrainisch, Bulgarisch, Serbisch Unicode.org
KOI8-R 8-Bit kyrillische Kodierung, für Russisch entwickelt. Zeichen bleiben lesbar, selbst wenn das hohe Bit entfernt wird. Russisch RFC 1489
ISO-8859-5 ISO-Standard kyrillische Kodierung, Teil der ISO-8859-Serie. Unterstützt grundlegende kyrillische Zeichen. Russisch, Bulgarisch, Mazedonisch, Serbisch ISO/IEC 8859-5

Andere Kodierungen

Kodierung Beschreibung Verwendung Spezifikation
ASCII American Standard Code for Information Interchange, die Grundlage der meisten modernen Kodierungen. 7-Bit-Kodierung mit 128 Zeichen. Einfacher englischer Text, Programmierung RFC 20
Macintosh Apples ursprüngliche Zeichenkodierung für Mac OS Classic, auch bekannt als Mac Roman. Ältere Mac-Dateien, alte Mac-Anwendungen Unicode.org

Häufig gestellte Fragen

Was ist eine Zeichenkodierung und warum ist sie wichtig?

Eine Zeichenkodierung ist eine Zuordnung zwischen Zeichen (Buchstaben, Symbolen, Ziffern) und numerischen Bytewerten. Computer speichern Text als Zahlen, und die Kodierung gibt an, welche Zahl welches Zeichen repräsentiert. Wenn Sender und Empfänger verschiedene Kodierungen verwenden, werden Bytes falsch interpretiert und unlesbarer Text erscheint — ein Problem, das manchmal als Mojibake bezeichnet wird. UTF-8 ist der Webstandard und unterstützt nahezu alle Sprachen.

Was ist der Unterschied zwischen GBK, GB2312 und GB18030?

Alle drei sind chinesische Nationalkodierungsstandards. GB2312 (1981) umfasst 6.763 vereinfachte chinesische Zeichen. GBK (1993) ist eine Obermenge von GB2312 und fügt etwa 21.000 Zeichen hinzu, einschließlich traditioneller Schriftzeichen. GB18030 (2005) ist der aktuelle verbindliche Nationalstandard, der alle Unicode-Zeichen umfasst und damit die vollständigste der drei Kodierungen ist.

Warum erscheint mein konvertierter Text immer noch unleserlich?

Unleserlicher Text nach der Konvertierung bedeutet meist, dass die falsche Quellkodierung gewählt wurde. Wenn die Originaldatei als GBK gespeichert wurde, Sie aber UTF-8 als Quelle ausgewählt haben, werden die Bytes falsch interpretiert. Versuchen Sie verschiedene Quellkodierungen: Für asiatische Sprachen sind GBK, Shift-JIS, EUC-KR und Big5 üblich. Für europäischen Text eignen sich Windows-1252 oder ISO-8859-1.

Was ist Shift-JIS und wann wird es verwendet?

Shift-JIS ist eine japanische Zeichenkodierung aus den 1980er Jahren, die von Microsoft Windows und vielen älteren japanischen Anwendungen und Websites verwendet wurde. Moderne Systeme bevorzugen UTF-8, aber Shift-JIS findet sich noch in alten Datenbanken, eingebetteten Systemen und älteren Spiel-ROMs.

Kann ich zwischen UTF-8 und UTF-16 konvertieren?

Ja. UTF-8 und UTF-16 kodieren dieselben Unicode-Codepunkte — sie sind nur unterschiedliche Byte-Darstellungen derselben Zeichen. UTF-8 verwendet 1 bis 4 Bytes pro Zeichen und ist kompakt für ASCII-Text. UTF-16 verwendet 2 oder 4 Bytes pro Zeichen und wird intern von Windows, Java und JavaScript-Engines verwendet. Die Konvertierung zwischen beiden ändert nur die Byte-Darstellung, nicht die Zeichen selbst.

Verwandte Tools

Schnellmenü

Keine aktuellen Tools