Text-Codierungs-Konverter
Konvertieren Sie Text zwischen Hex, Binär, Unicode und weiteren Codierungsformaten
Zeichendetails
Dokumentation zum Codierungs-Konverter
Was ist Zeichencodierung?
Zeichencodierung ist ein System, das Zeichen auf Zahlen abbildet, die Computer verarbeiten können. Verschiedene Codierungsschemata werden für unterschiedliche Zwecke wie Speichern, Übertragen oder Anzeigen von Textdaten verwendet. Gängige Codierungen sind ASCII, UTF-8, UTF-16 usw.
Unterstützte Formate
Hexadezimal (Hex)
Hexadezimale Darstellung mit den Ziffern 0-9 und den Buchstaben A-F. Jedes Byte wird durch zwei Hex-Zeichen dargestellt. Weit verbreitet in der Programmierung und beim Debuggen.
Binär
Binäre Darstellung nur mit 0 und 1. Jedes Byte wird durch 8 Bits dargestellt. Dies ist die grundlegende Datendarstellung, die von Computern verwendet wird.
Unicode-Escape
Unicode-Escape-Sequenzen im Format \uXXXX, die häufig in Programmiersprachen wie JavaScript und JSON verwendet werden, um Unicode-Zeichen darzustellen.
HTML-Entität
HTML-Entitäts-Codierung, einschließlich benannter Entitäten (wie &) und numerischer Entitäten (wie & oder &). Wird verwendet, um Sonderzeichen sicher in HTML anzuzeigen.
Punycode
Codierungsschema für internationalisierte Domainnamen (IDN). Konvertiert Unicode-Zeichen in ASCII-kompatible Codierung mit dem Präfix xn--.
Häufige Anwendungsfälle
- Hexadezimale oder binäre Darstellung von Zeichen beim Debuggen anzeigen
- Datencodierung in Netzwerkprotokollen handhaben
- Codierungsprobleme (Mojibake) analysieren und beheben
- Unicode-Escape-Sequenzen im Code verwenden
- Internationalisierte Domainnamen (IDN) handhaben
- Zeichen-Escaping in HTML/XML
Zeichensatz vs. Codierungsformat
Zeichensatz und Codierungsformat sind zwei unterschiedliche Konzepte. Ein Zeichensatz definiert, welche Zeichen im Text verwendet werden (wie ASCII, GB2312, GBK, Unicode usw.), während ein Codierungsformat definiert, wie diese Zeichen auf einem Computer gespeichert werden (wie UTF-8, UTF-16 usw.). Beispielsweise kann der gleiche Text mit dem GB2312-Zeichensatz als GB2312-Codierung oder mit dem Unicode-Zeichensatz als UTF-8 codiert werden.
Wenn Sie zwischen verschiedenen Zeichensätzen (wie GBK, UTF-8, ISO-8859-1 usw.) konvertieren müssen, anstatt nur das Codierungsformat zu ändern, verwenden Sie das Zeichensatz-Konvertierungstool.
Häufig gestellte Fragen
Was ist der Unterschied zwischen Kodierung und Verschlüsselung?
Kodierung wandelt Daten mit einem öffentlich bekannten Schema in eine andere Darstellung um — es gibt keinen geheimen Schlüssel, und der Vorgang ist für jeden umkehrbar. Verschlüsselung verschlüsselt Daten mit einem geheimen Schlüssel, sodass nur der Schlüsselinhaber sie wiederherstellen kann. Base64 und Hexadezimal sind Kodierungen; AES und RSA sind Verschlüsselungsalgorithmen.
Warum endet Base64-kodierter Text mit = oder ==?
Base64 kodiert jeweils 3 Eingabebytes in 4 Ausgabezeichen. Wenn die Eingabelänge nicht durch 3 teilbar ist, werden ein oder zwei =-Zeichen als Füllung hinzugefügt, damit die Ausgabe ein Vielfaches von 4 ist. Ein = bedeutet 1 Füllbyte, zwei == bedeuten 2 Füllbytes. Manche Implementierungen lassen die Füllung weg — beide Varianten sind gültig, wenn der Decoder damit umgehen kann.
Was ist der Unterschied zwischen ASCII und Unicode?
ASCII ist eine 7-Bit-Kodierung mit 128 Zeichen (A-Z, 0-9, gängige Satzzeichen). Unicode ist ein Zeichenrepertoire-Standard mit über 140.000 Zeichen aus allen Schriftsystemen. UTF-8, UTF-16 und UTF-32 sind verschiedene Methoden, Unicode-Codepunkte als Bytes darzustellen — UTF-8 ist für die ersten 128 Codepunkte rückwärtskompatibel mit ASCII.
Wann sollte ich Hexadezimalkodierung statt Base64 verwenden?
Hexadezimal (Base16) stellt jedes Byte durch zwei Hexadezimalzeichen dar — ausführlich, aber für technische Inspektion sofort lesbar, nützlich beim Debuggen von Byte-Streams, kryptografischen Schlüsseln und binären Protokollwerten. Base64 ist etwa 33 % kompakter und wird bevorzugt, wenn Binärdaten in JSON, E-Mails oder URLs übertragen werden.
Was bedeutet die Notation U+XXXX für Unicode-Codepunkte?
U+XXXX ist die Standardnotation für einen Unicode-Codepunkt, wobei XXXX eine Hexadezimalzahl ist. Zum Beispiel ist U+0041 der lateinische Großbuchstabe A, und U+4E2D ist das chinesische Schriftzeichen 中. Codepunkte reichen von U+0000 bis U+10FFFF. Das U+-Präfix wurde vom Unicode-Konsortium eingeführt, um Codepunkte von Byte-Werten zu unterscheiden.
Verwandte Tools
Zeichensatz-Konverter
Konvertieren Sie Zeichenkodierung zwischen UTF-8, GBK, Big5, Shift_JIS, ISO-8859, Windows-Codepages mit automatischer Erkennung
Zahlenbasis-Konverter
Konvertieren zwischen binären, oktalen, dezimalen und hexadezimalen Zahlensystemen mit Unterstützung für benutzerdefinierte Basen (2-36)
URL-Kodierer/Dekodierer
Kodieren und dekodieren Sie URLs zur Sicherstellung der Konformität und Nutzbarkeit
HTML-Kodierer/Dekodierer
Konvertieren Sie Sonderzeichen in HTML-Entitäten mit benannten, dezimalen und hexadezimalen Formaten zur Verhinderung von XSS-Angriffen
Base64-Kodierer/Dekodierer
Schnelles Kodieren und Dekodieren von Base64-Strings mit Unterstützung für Text- und Dateikonvertierung
Escape/Unescape-Tool
Escapen und unescapen Sie Strings zwischen mehreren Formaten einschließlich JavaScript, JSON, HTML, XML, CSV, SQL und mehr