마이그레이션

타 DBMS를 CUBRID로 마이그레이션 시 varchar,char 컬럼 사이즈 관련

by 손승일 posted Jul 01, 2010

CUBRID는 다른 DBMS와는 달리 CharacterSet 설정이 없는 상태에서 입력하는 클라이언트의 Character Code를 그대로 받아들입니다. 이렇게 함으로써 입력과 출력이 동일한 형태가 되도록 하고 있습니다.
입력된 character code를 그대로 저장하는 특성 때문에 입력되는 Character Code가 어떤 CharacterSet을 사용하느냐에 따라 저장사이즈가 달라집니다. 따라서 컬럼의 사이즈를 결정할 때 입력되는 CharactrerSet을 고려하여 결정하여야 합니다.

한글 처리시 euc-kr 의 경우 2byte, utf-8의 경우 3byte가 사용되고 CUBRID에는 입력 byte 그대로 저장되기 때문에 euc-kr로 "홍길동"을 입력한다면 char(6)으로 설정해야 정상 저장 될 것이고,  utf-8로 입력하는 경우 char(9)로 설정해야 저장 됩니다.

 

다른 DBMS는 아래와 같습니다.

1. Oracle
Oracle에서는 한글을 지원하기 위해 사용되는 CharacterSet이 KO16KSC5601, KO16MSWIN949, UTF8, AL32UTF8이 있습니다.
이중 KO16KSC5601, KO16MSWIN949는 한글 처리를 위해 2byte가 사용되고, UTF8, AL32UTF8는 3byte가 사용됩니다.
Oracle에서는 컬럼의 사이즈를 지정할 때 byte로 설정할 것인지 아니면 char로 설정할 것인지를 선택할 수 있습니다.
위에서 예를 들은 '홍길동'을 UTF-8로 저장하기 위해서는 컬럼의 데이터 타입 정의시 char(9 byte)로 하거나, char(3 char)로 사용합니다.

 

2. MySQL
MySQL에서는 한글을 지원하기 위해 사용되는 CharacterSet이 euckr, utf-8이 있습니다.
MySQL에서는 컬럼의 사이즈를 지정할 때 CharacterSet의 종류에 상관 없이 문자단위로 처리합니다.
위에서 예를 들은 '홍길동'을 저장할 컬럼을 생성할 때 CharacterSet이 euckr이건 utf-8이건 상관없이 모두 char(3)으로 사용합니다.

 

3. Altibase
Altibase에서 지원하는 CharacterSet은 매뉴얼 등에서 찾지 못했고KO16KSC5601, UTF-8은 사용되는 것 같습니다.
컬럼 사이즈 지정 관련하여서는 byte 단위로 처리함에 따라 UTF-8로 '홍길동'을 저장하는 경우 char(9)로 사용합니다.

 

4. Tibero
Tibero 에서 지원하는 CharacterSet은 매뉴얼 등에서 찾지 못했고 UTF8, EUCKR, MSWIN949이 사용되는 것 같습니다.
컬럼 사이즈 지정 관련하여서는 Oracle과 동일한 방식이 사용되고 있습니다.


 

따라서 한글이 사용된 컬럼(데이터 타입이 char or varchar)을 CUBRID로 변경하기 위해서는 아래와 같이 사이즈를 고려하여야 합니다.

아래의 예는 utf-8 한글 사용의 경우입니다.

1. Oracle은 char(9 byte)의 경우 CUBRID는 char(9)로, char(9 char)인 경우는 CUBRID는 char(27)로

2. MySQL은 char(9 byte)의 경우 CUBRID는 char(27)로

3. Altibase은 char(9 byte)의 경우 CUBRID는 char(9)로

4. Tibero의 경우 Oracle과 동일

 


Articles

1