CoderTools

Text-Codierungs-Konverter

Konvertieren Sie Text zwischen Hex, Binär, Unicode und weiteren Codierungsformaten

Byte-Trennzeichen:
Präfix hinzufügen:

Dokumentation zum Codierungs-Konverter

Was ist Zeichencodierung?

Zeichencodierung ist ein System, das Zeichen auf Zahlen abbildet, die Computer verarbeiten können. Verschiedene Codierungsschemata werden für unterschiedliche Zwecke wie Speichern, Übertragen oder Anzeigen von Textdaten verwendet. Gängige Codierungen sind ASCII, UTF-8, UTF-16 usw.

Unterstützte Formate

Hexadezimal (Hex)

Hexadezimale Darstellung mit den Ziffern 0-9 und den Buchstaben A-F. Jedes Byte wird durch zwei Hex-Zeichen dargestellt. Weit verbreitet in der Programmierung und beim Debuggen.

Binär

Binäre Darstellung nur mit 0 und 1. Jedes Byte wird durch 8 Bits dargestellt. Dies ist die grundlegende Datendarstellung, die von Computern verwendet wird.

Unicode-Escape

Unicode-Escape-Sequenzen im Format \uXXXX, die häufig in Programmiersprachen wie JavaScript und JSON verwendet werden, um Unicode-Zeichen darzustellen.

HTML-Entität

HTML-Entitäts-Codierung, einschließlich benannter Entitäten (wie &) und numerischer Entitäten (wie & oder &). Wird verwendet, um Sonderzeichen sicher in HTML anzuzeigen.

Punycode

Codierungsschema für internationalisierte Domainnamen (IDN). Konvertiert Unicode-Zeichen in ASCII-kompatible Codierung mit dem Präfix xn--.

Häufige Anwendungsfälle

  • Hexadezimale oder binäre Darstellung von Zeichen beim Debuggen anzeigen
  • Datencodierung in Netzwerkprotokollen handhaben
  • Codierungsprobleme (Mojibake) analysieren und beheben
  • Unicode-Escape-Sequenzen im Code verwenden
  • Internationalisierte Domainnamen (IDN) handhaben
  • Zeichen-Escaping in HTML/XML

Zeichensatz vs. Codierungsformat

Zeichensatz und Codierungsformat sind zwei unterschiedliche Konzepte. Ein Zeichensatz definiert, welche Zeichen im Text verwendet werden (wie ASCII, GB2312, GBK, Unicode usw.), während ein Codierungsformat definiert, wie diese Zeichen auf einem Computer gespeichert werden (wie UTF-8, UTF-16 usw.). Beispielsweise kann der gleiche Text mit dem GB2312-Zeichensatz als GB2312-Codierung oder mit dem Unicode-Zeichensatz als UTF-8 codiert werden.

Wenn Sie zwischen verschiedenen Zeichensätzen (wie GBK, UTF-8, ISO-8859-1 usw.) konvertieren müssen, anstatt nur das Codierungsformat zu ändern, verwenden Sie das Zeichensatz-Konvertierungstool.

Häufig gestellte Fragen

Was ist der Unterschied zwischen Kodierung und Verschlüsselung?

Kodierung wandelt Daten mit einem öffentlich bekannten Schema in eine andere Darstellung um — es gibt keinen geheimen Schlüssel, und der Vorgang ist für jeden umkehrbar. Verschlüsselung verschlüsselt Daten mit einem geheimen Schlüssel, sodass nur der Schlüsselinhaber sie wiederherstellen kann. Base64 und Hexadezimal sind Kodierungen; AES und RSA sind Verschlüsselungsalgorithmen.

Warum endet Base64-kodierter Text mit = oder ==?

Base64 kodiert jeweils 3 Eingabebytes in 4 Ausgabezeichen. Wenn die Eingabelänge nicht durch 3 teilbar ist, werden ein oder zwei =-Zeichen als Füllung hinzugefügt, damit die Ausgabe ein Vielfaches von 4 ist. Ein = bedeutet 1 Füllbyte, zwei == bedeuten 2 Füllbytes. Manche Implementierungen lassen die Füllung weg — beide Varianten sind gültig, wenn der Decoder damit umgehen kann.

Was ist der Unterschied zwischen ASCII und Unicode?

ASCII ist eine 7-Bit-Kodierung mit 128 Zeichen (A-Z, 0-9, gängige Satzzeichen). Unicode ist ein Zeichenrepertoire-Standard mit über 140.000 Zeichen aus allen Schriftsystemen. UTF-8, UTF-16 und UTF-32 sind verschiedene Methoden, Unicode-Codepunkte als Bytes darzustellen — UTF-8 ist für die ersten 128 Codepunkte rückwärtskompatibel mit ASCII.

Wann sollte ich Hexadezimalkodierung statt Base64 verwenden?

Hexadezimal (Base16) stellt jedes Byte durch zwei Hexadezimalzeichen dar — ausführlich, aber für technische Inspektion sofort lesbar, nützlich beim Debuggen von Byte-Streams, kryptografischen Schlüsseln und binären Protokollwerten. Base64 ist etwa 33 % kompakter und wird bevorzugt, wenn Binärdaten in JSON, E-Mails oder URLs übertragen werden.

Was bedeutet die Notation U+XXXX für Unicode-Codepunkte?

U+XXXX ist die Standardnotation für einen Unicode-Codepunkt, wobei XXXX eine Hexadezimalzahl ist. Zum Beispiel ist U+0041 der lateinische Großbuchstabe A, und U+4E2D ist das chinesische Schriftzeichen 中. Codepunkte reichen von U+0000 bis U+10FFFF. Das U+-Präfix wurde vom Unicode-Konsortium eingeführt, um Codepunkte von Byte-Werten zu unterscheiden.

Verwandte Tools

Schnellmenü

Keine aktuellen Tools