텍스트 인코딩 변환기
Hex, Binary, Unicode 및 기타 인코딩 형식 간 텍스트 변환
문자 세부정보
인코딩 변환기 문서
문자 인코딩이란?
문자 인코딩은 컴퓨터가 처리할 수 있는 숫자에 문자를 매핑하는 시스템입니다. 텍스트 데이터를 저장, 전송 또는 표시하는 등 다양한 목적으로 서로 다른 인코딩 방식이 사용됩니다. 일반적인 인코딩에는 ASCII, UTF-8, UTF-16 등이 있습니다.
지원되는 형식
16진수 (Hex)
0-9 숫자와 A-F 문자를 사용하는 16진수 표현. 각 바이트는 두 개의 16진수 문자로 표현됩니다. 프로그래밍 및 디버깅에서 널리 사용됩니다.
2진수
0과 1만 사용하는 2진수 표현. 각 바이트는 8비트로 표현됩니다. 컴퓨터에서 사용되는 기본 데이터 표현 방식입니다.
유니코드 이스케이프
JavaScript 및 JSON과 같은 프로그래밍 언어에서 유니코드 문자를 나타내는 데 일반적으로 사용되는 \uXXXX 형식의 유니코드 이스케이프 시퀀스입니다.
HTML 엔티티
명명된 엔티티(&와 같은)와 숫자 엔티티(& 또는 &와 같은)를 포함하는 HTML 엔티티 인코딩입니다. HTML에서 특수 문자를 안전하게 표시하는 데 사용됩니다.
Punycode
국제화 도메인 이름(IDN)을 위한 인코딩 방식. 유니코드 문자를 xn-- 접두사가 붙은 ASCII 호환 인코딩으로 변환합니다.
일반적인 사용 사례
- 디버깅 중 문자의 16진수 또는 2진수 표현 보기
- 네트워크 프로토콜에서 데이터 인코딩 처리
- 인코딩 문제(mojibake) 분석 및 수정
- 코드에서 유니코드 이스케이프 시퀀스 사용
- 국제화 도메인 이름(IDN) 처리
- HTML/XML에서 문자 이스케이프
문자 집합 vs 인코딩 형식
문자 집합과 인코딩 형식은 두 가지 다른 개념입니다. 문자 집합은 텍스트에서 사용되는 문자를 정의하고(ASCII, GB2312, GBK, Unicode 등), 인코딩 형식은 이러한 문자가 컴퓨터에 저장되는 방식을 정의합니다(UTF-8, UTF-16 등). 예를 들어, 동일한 텍스트는 GB2312 문자 집합을 GB2312 인코딩으로 인코딩할 수도 있고, Unicode 문자 집합을 UTF-8로 인코딩할 수도 있습니다.
GBK, UTF-8, ISO-8859-1 등 서로 다른 문자 집합 간의 변환이 필요하고 인코딩 형식을 변경하는 것만으로는 부족한 경우 문자 집합 변환 도구를 사용하세요.
자주 묻는 질문
인코딩과 암호화의 차이는 무엇인가요?
인코딩은 공개적으로 알려진 방식을 사용하여 데이터를 다른 표현으로 변환합니다. 비밀 키가 필요 없으며 누구나 되돌릴 수 있습니다. 암호화는 비밀 키를 사용하여 데이터를 변환하므로 키를 가진 사람만 복원할 수 있습니다. Base64와 16진수는 인코딩이고, AES와 RSA는 암호화 알고리즘입니다.
Base64로 인코딩된 텍스트 끝에 = 또는 ==가 붙는 이유는 무엇인가요?
Base64는 3바이트 입력을 4개의 출력 문자로 인코딩합니다. 입력 길이가 3의 배수가 아닐 경우, 출력이 4의 배수가 되도록 = 문자가 하나 또는 둘 추가됩니다. = 하나는 1바이트 패딩, == 둘은 2바이트 패딩을 의미합니다. 일부 구현은 패딩을 생략하며, 디코더가 처리할 수만 있다면 두 형식 모두 유효합니다.
ASCII와 Unicode의 차이는 무엇인가요?
ASCII는 128개의 문자(A-Z, 0-9, 일반 구두점)를 다루는 7비트 인코딩입니다. Unicode는 모든 문자 체계에 걸쳐 14만 개 이상의 문자를 포함하는 문자 집합 표준입니다. UTF-8, UTF-16, UTF-32는 Unicode 코드 포인트를 바이트로 인코딩하는 방법입니다. UTF-8은 처음 128개의 코드 포인트에서 ASCII와 하위 호환성을 유지합니다.
Base64 대신 16진수 인코딩을 언제 사용해야 하나요?
16진수(Base16)는 각 바이트를 두 자리 16진수로 나타내므로 장황하지만 기술적 검사에 직관적입니다. 바이트 스트림, 암호화 키, 이진 프로토콜 값 디버깅에 유용합니다. Base64는 약 33% 더 압축되며 JSON, 이메일 또는 URL에서 이진 데이터를 전송할 때 선호됩니다.
Unicode 코드 포인트 U+XXXX 표기는 무엇을 의미하나요?
U+XXXX는 Unicode 코드 포인트의 표준 표기법으로, XXXX는 16진수입니다. 예를 들어 U+0041은 라틴 대문자 A이고 U+4E2D는 한자 中입니다. 코드 포인트 범위는 U+0000에서 U+10FFFF까지입니다. U+ 접두사는 Unicode 컨소시엄이 코드 포인트와 바이트 값을 구별하기 위해 도입했습니다.
관련 도구
문자 집합 변환기
UTF-8, GBK, Big5, Shift_JIS, ISO-8859, Windows 코드 페이지 등의 문자 집합 인코딩을 자동 감지로 변환
진법 변환기
2진수, 8진수, 10진수, 16진수 간 변환, 2-36 사용자 정의 진법 지원
URL 인코더/디코더
규정 준수 및 사용 가능성을 보장하기 위해 URL을 인코딩 및 디코딩합니다
HTML 인코더/디코더
XSS 공격을 방지하기 위해 명명된, 십진수 및 16진수 형식으로 특수 문자를 HTML 엔티티로 변환합니다
Base64 인코더/디코더
텍스트 및 파일 변환을 지원하여 Base64 문자열을 빠르게 인코딩 및 디코딩합니다
이스케이프/언이스케이프 도구
JavaScript, JSON, HTML, XML, CSV, SQL 등을 포함한 여러 형식 간에 문자열을 이스케이프 및 언이스케이프합니다