1.유니코드

유니코드(Unicode)는 유니코드 협회(Unicode Consortium)가 제정하는 전 세계의 모든 문자를 컴퓨터에서 일관되게 표현하고 다룰 수 있도록 설계된 산업 표준입니다. 이 표준에는 ISO 10646 문자 집합, 문자 인코딩, 문자 정보 데이터베이스, 문자를 다루기 위한 알고리즘 등을 포함하고 있습니다.

유니코드가 탄생하기 이전에는, 같은 한글이 적힌 텍스트 파일이라도 표현하는 방법이 제각각이었습니다. 어떤 파일이 지원하지 않는 다른 인코딩 형식으로 저장되어 있는 경우에는 파일을 제대로 불러올 수 없었습니다. 기본적으로 유니코드의 목적은 현존하는 문자 인코딩 방법을 모두 유니코드로 교체하는 겁니다.


2.인코딩(부호화)


인코딩이란 어떤 문자나 기호를 컴퓨터가 이용할 수 있는 신호로 만드는 것입니다.
이 신호를 입력하는 인코딩과 문자를 해독하는 디코딩을 하기 위해서는 미리 정해진 기준을
바탕으로 입력과 해독이 처리되어야 합니다.
이렇게 인코딩과 디코딩의 기준을 문자열 세트 또는 문자셋(charset)이라고 합니다.
 이 문자셋의 국제 표준이 유니코드입니다.


3.아스키코드
영문 알파벳을 사용하는 대표적인 문자 인코딩으로 7 비트로 모든 영어 알파벳을 표현할 수 있습니다.
 52개의 영문 알파벳 대소문자와, 10개의 숫자, 32개의 특수 문자, 그리고 하나의 공백 문자를 포함합니다.
유니코드는 ASCII를 확장한 형태입니다.


4.utf-8과 utf-16의 차이점


1.UTF-8과 UTF-16은 인코딩 방식의 차이를 의미합니다


. UTF-8은 Universal Coded Character Set + Transformation Format – 8-bit의 약자로,
 UTF- 뒤에 등장하는 숫자는 비트(bit)입니다.

2. UTF-8(대세임) 특징: 바이트 순서가 고정됨


UTF-16에 비해 바이트 순서를 따지지 않고, 순서가 정해져 있습니다.

UTF-8은 가장 많이 사용되는 가변 길이 유니코드 인코딩이다.

단일 인코딩 방식 => 다른 방식으로 실수할 여지 자체가 없다

UTF-8에서는 한글은 3 바이트, UTF-16에서는 2 바이트를 차지합니다.


3. UTF-16 특징: 코드 그대로 바이트로 표현 가능, 바이트 순서가 다양함


UTF-16은 유니코드 코드 대부분(U+0000부터 U+FFFF; BMP) 을 16 bits로 표현합니다.

대부분에 속하지 않는 기타문자는 32 bit(4 bytes)로 표현하므로 UTF-16도 가변 길이라고 할 수 있으나, 대부분은 2 바이트로 표현합니다
U+ABCD라는 16진수를 있는 그대로 이진법으로 변환하면 1010-1011-1100-1101 입니다. 이 이진법으로 표현된 문자를 16 bits(2 bytes)로 그대로 사용하며, 바이트 순서(엔디언)에 따라 UTF-16의 종류도 달라집니다.


'컴퓨터 공학' 카테고리의 다른 글

캐시가 무엇이냐?  (0) 2022.04.25
가비지 컬렉션이란?  (0) 2022.04.25
메모리란?  (0) 2022.04.25
[운영체제]운영체제란 무엇인가?  (0) 2022.04.25
그래픽  (0) 2022.04.25
복사했습니다!