Background Image
조회 수 2371 추천 수 0 댓글 0
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄 첨부

내가 INSERT한 레코드는 어떤 구조로 파일에 저장될까?

운전을 하다 보면 가끔 엔진이나 미션 등이 어떻게 동작하는지 궁금할 때가 있다. 연료가 어떻게 엔진에 전달되는지, 엔진은 어떻게 연료를 연소하여 동력을 얻는지, 또 이를 미션에 전달하여 어떻게 차를 움직이게 하는지 등에 대해 말이다. CUBRID를 사용하는 사용자들도 가끔 이런 호기심이 생기지 않을까? 이런 호기심 많은 사용자를 위한 첫번째로 "사용자가 INSERT한 레코드는 어떤 구조로 파일에 저장될까?"란 주제로 이야기 해보려고 한다. 티타임을 이용해 가벼운 마음으로 읽을 수 있도록 작성하였으니 여유 시간에 재미로 읽을 수 있길 바래본다.

 

슬랏 페이지(slotted page) 구조

CUBRID도 OS나 다른 DBMS와 같이 성능상의 이유로 페이지(page) 단위 디스크 I/O를 수행한다. CUBRID 페이지 크기는 최소 4KB ~ 최대 16KB 이며, 디폴트로 16KB 디스크 페이지 크기를 사용한다. 슬랏 페이지 구조란 이런 페이지에 데이터 저장을 구조화하는 하나의 방식을 말한다. CUBRID 사용자가 INSERT 구문을 사용하여 데이터(레코드)를 입력하게 되면, 여러 처리를 거친 후 결국 디스크 페이지에 입력된 데이터가 쓰여지게 된다. 그럼 다음 4개의 INSERT를 수행해 보자.

 

- INSERT INTO t1(c1) VALUES ('aaa');

- INSERT INTO t1(c1) VALUES ('bbbbb');

- INSERT INTO t1(c1) VALUES ('cc');

- INSERT INTO t1(c1) VALUES ('dddddd');

 

위 4개의 INSERT 구문을 수행하게 되면 < 그림 1 >과 같이 쓰여지게 될까?

 

2019-06-17 23;35;54.PNG

< 그림 1 >

 

데이터를 추가하였으니, SELECT 문을 이용해 데이터를 조회해 보도록 하자.

 

- SELECT * FROM t1 WHERE c1 = 'bbbbb';

 

< 그림 1 >의 페이지에서 어떻게 'bbbbb'를 찾을 수 있을까? 즉, 페이지 내 어느 위치에서 얼마나 읽어야 'bbbbb'를 찾아낼 수 있을까? 정답은 '알 수 없다' 이다. 페이지 내에서 원하는 데이터를 찾기 위해서는 추가적인 정보를 필요로 하며, 이런 정보를 저장하고 있는 것이 데이터 헤더(data header) 이다. < 그림 2 >를 보면 각 데이터의 앞에 데이터 길이 정보를 가지는 데이터 헤더를 포함시켰다. 이제 우리는 'bbbbb'의 위치를 찾을 수 있게 되었다. 페이지의 시작에서 '데이터 헤더 크기' + 'aaa 길이(3)' = 'bbbbb 데이터 시작 위치' 이다. 같은 방식으로 'cc', 'dddddd' 역시 쉽게 찾을 수 있음을 알 수 있다.

 

2019-06-18 00;23;25.PNG

< 그림 2 >

 

이번에는 데이터 'cc'를 삭제해 보자.

 

- DELETE FROM t1 WHERE c1 = 'cc';

 

우선 'cc'를 삭제하기 위해서는 'cc'의 위치를 찾아야 한다. 'cc'의 위치는 데이터 헤더에 기록된 데이터 길이 정보를 이용하여 쉽게 찾을 수 있다. 이제 어떻게 지울까? 'cc'를 '\0'로 덮어쓰면 될까? 데이터 길이 정보를 0으로 바꾸면 될까? < 그림 3 >은 데이터 삭제 시 'cc'를 '\0'로 덮어 쓴 후 데이터 길이 정보를 0으로 바꾼 경우를 나타낸다.

 

2019-06-18 00;34;40.PNG

< 그림 3 >

 

여기서 문제. 'dddddd'는 어떻게 찾을까? 'cc'의 길이 정보 2를 이용해야 'dddddd'의 위치를 찾을 수 있었다. 그럼 데이터 길이 정보는 기존 2로 나두면 해결될까? SELECT * FROM t1 WHERE c1 != 'cc' 수행 시 우선 데이터 길이가 2이기 때문에 삭제 여부를 알 수 없다. 그럼 데이터 삭제 여부 확인을 위해 데이터를 읽을 때마다 첫 바이트가 '\0' 인지 확인해야 한다. 데이터가 천만건이라면? '\0' 자체가 데이터라면? 따라서, 데이터 헤더에 삭제 여부를 나타내는 필드를 추가해서 데이터가 삭제되었다는 표시를 한다. < 그림 4 >를 보면 삭제 플래그를 두어 'cc'가 삭제되었음을 나타내고 있다. 그럼 데이터 헤더 확인을 통해 데이터가 삭제되었는지 여부를 알 수 있다.

 

2019-06-18 00;41;34.PNG

< 그림 4 >

 

여기서 우리는 한가지 문제를 더 생각해 보아야 한다. 바로 페이지 내 데이터 찾기 '효율성' 이다. 첫번째 데이터 'aaa'는 한번에 찾을 수 있다. 두번째 데이터인 'bbbbb'의 경우 반드시 'aaa' 헤더의 데이터 길이 정보를 이용해야 찾을 수 있다. 그럼 'cc' 는? 앞 2개 데이터 헤더 정보를 이용해야 한다. 그럼 마지막에 추가된 데이터의 경우 거의 모든 헤더 정보를 다 읽어야만 데이터를 찾을 수 있게 된다. 매우 비효율적이다. 그럼 데이터 헤더에 데이터 위치 정보를 나타내는 오프셋을 추가한 후 데이터 헤더를 별도로 분리해보면 어떨까? 보통 쉽게 생각할 수 있는 방법은 페이지 헤더를 만들고 여기에 데이터 헤더를 기록하는 것이다. < 그림 5 >를 보면 페이지 헤더에 데이터 헤더 6개를 담을 수 있는 배열이 있고, 각 데이터 헤더에는 오프셋 정보가 추가되었다. 찾을 데이터에 매핑되는 데이터 헤더 배열의 인덱스만 있으면, 오프셋을 이용하여 같은 시간 안에 페이지 내 모든 데이터를 찾을 수 있다. 이를 통해 페이지 내 데이터 찾기 문제를 해결할 수 있다.

 

2019-06-18 00;53;59.PNG

< 그림 5 >

 

그럼 2개의 데이터를 더 입력해 보자.

 

- INSERT INTO t1(c1) VALUES ('e');

- INSERT INTO t1(c1) VALUES ('ff');

 

< 그림 6 >을 보면, 데이터 헤더 배열 크기가 6이기 때문에 페이지에 충분한 여유 공간이 남아 있음에도 불구하고 더이상의 데이터를 추가할 수 없음을 알 수 있다. 그럼 데이터 헤더 배열 크기를 늘이면 해결될까? 정답은 '아니다' 이다. 페이지에 버려진 여유 공간의 크기는 쓰여지는 데이터의 크기에 따라 달라질 것이다. 따라서, 모든 데이터 헤더를 사용한 후에도 페이지 내 공간이 남는다거나 반대로, 데이터 헤더 배열을 100% 사용하지 못하는 경우가 발생할 수 있다. 이는 곧 페이지 공간 낭비에 해당한다. 우리는 디스크 I/O 효율성을 위해 페이지 단위로 I/O를 수행하지만, 페이지 공간을 효율적으로 사용하지 못할 경우 이는 곧 불필요한 I/O를 발생시키는 원인이 될 것이다.

 

2019-06-18 01;08;21.PNG

< 그림 6 >

 

이런 문제를 해결할 수 있는 방법 중 하나가 슬랏 페이지 구조이다. 여기서 슬랏(slot) 이란 곧 데이터 헤더이다. < 그림 7 >은 슬랏 페이지 구조를 나타낸다. 페이지 헤더에 위치하던 데이터 헤더가 페이지 끝으로 이동했다. 페이지 헤더에는 현재 페이지에 몇 개의 데이터 헤더가 있는지를 나타내는 정보 등이 기록된다. 이 페이지 구조에서 데이터는 기존처럼 페이지 시작에서 끝 방향으로 추가된다. 반면 데이터 헤더는 페이지 끝에서 페이지 시작 방향으로 추가된다. 새로운 데이터 추가 시 데이터 길이에 따라 발생하던 페이지 공간 사용 효율성 문제는 더이상 발생하지 않는다.

 

2019-06-18 01;16;30.PNG

< 그림 7 >

 

지금까지 "사용자가 INSERT한 레코드는 어떤 구조로 파일에 저장될까?"란 주제로 이야기 했으며, 결론은 '슬랏 페이지 구조로 저장된다' 이다. CUBRID 뿐 아니라 많은 DBMS들이 슬랏 페이지 구조를 사용하고 있으며, 이에 대한 이해를 위해 개념적인 관점에서 이야기 하였다. 실제로, 얼라인먼트(alignment), 단편화(fragmentation) 처리, 인/아웃-플레이스 갱신 등 다양한 이야기 거리가 있지만 이는 다음 기회를 기약하며, 이만 마치도록 한다.


  1. 공공부문 DBMS 정보자원 현황

    행정안전부/한국지능정보사회진흥원(NIA)에서는 매년 '범정부EA기반 공공부문 정보자원 현황 통계보고서'를 발간합니다. 2022년도 통계보고서는 금년 7월 초에 공개가 되었으며, 최근에 전자신문에서 통계보고서를 기반으로 한 스페셜리포트 기사(공공SW 외산 쏠림 해법은?)를 게재하였습니다. 전자신문 기사에서 공공SW 외산 쏠림 해법으로 2가지를 제시했습니다. 오픈소스 소프트웨어를 활용하여 외산 종속을 탈피하거나 공공부문 SaaS 국산화를 추진하자는 것입니다. 사실 국내 SW 산업은 정보보호, 관제 등 일부 분야를 제외하고 OS, DBMS, WEB/WAS, 백업 등 대부분의 영역에서 외산 편중이 높은 상황입니다. 이제부터 DBMS에 한정해서 조금 더 살펴보겠습니다. 아래 데이터는 2021년 기준이며, Oracle이 63.6%로 여전히 1위 자리를 지키고 있으며, 이어서 Microsoft (SQL Server), 큐브리드, 티맥스데이터(Tibero)가 순위를 차지하고 있습니다. [출처 : 2022년도 범정부EA기반 공공부문 정보자원 현황 통계보고서, 55쪽] 비록 Oracle와 Microsoft의 수량 점유율이 약 80%로 쏠림 현상이 강하게 나타나고 있으나, 큐브리드와 티맥스데이터의 수량을 합치면 15%가 ...
    Date2022.10.21 Category시장 살펴보기 By정병주 Views554 Votes0
    Read More
  2. Oracle Database SE2 살펴보기

    오라클의 FY 2016 3사분기 시작일인 2015년 12월 1일을 기점으로 Oracle Database Standard Edition 1과 Standard Edition 제품 판매가 중단되었으며, Standard Edition 2가 새롭게 추가 되었습니다. 또한, 2016년 8월 31일자를 기해서 Oracle SE1, SE에 대한 서포트와 보안 패치, 업그레이드 서비스가 종료되었습니다.   DBMS 시장의 강자인 Oracle Database 제품군에 변화가 생긴 것으로, 이러한 정책 변화는 다수의 사용자들에게 직접적인 영향을 주는 사안이라 국내 IT 매체에서도 이슈화를 할 것으로 생각했었습니다. 그런데, 당시 관련 기사를 검색해 보면 CIO Korea의 외신 번역기사와 데이터넷 기사 외에는 전무한 상태였으며, 개인적으로는 ‘왜 관련 기사를 쓰지 않을까?’하고 약간 의아한 생각이 들기도 했었습니다.   -> "오라클 데이터베이스 만료일에 주의하라" 애널리스트 경고 (CIO Korea, 2015-11-13) -> “SMB 시장에서 脫 오라클 바람 예고” (데이터넷, 2016-03-02)   어느덧 2년 가까운 시간이 지났기 때문에 대부분의 사용자 분들이 Oracle Database SE2 관련 정보를 습득하고 계시겠지만, 간략하게 정리를 해 보도록 하겠습니다.   구분 SE1 SE SE2 릴리...
    Date2017.10.27 Category시장 살펴보기 By정병주 Views12780 Votes0
    Read More
  3. 서버 시장의 변화 - x86 Up, Unix Down

    2008년 CUBRID가 오픈소스 DBMS로 전환하는 과정에서 내부적으로 중요한 의사결정이 있었습니다. 그것은 바로 Unix 계열 운영체제를 지원하지 않는 것이었습니다. 기존에 CUBRID는 Linux, Windows 운영체제 외에 Unix 계열 운영체제(HP HP-UX, IBM AIX, SUN Solaris)를 모두 지원하였으며, 오픈소스 전환 이후 Linux와 Windows 운영체제에만 집중하기로 한 것입니다. 당시 Unix 계열 고객사도 있었기 때문에 내부적으로 갑론을박이 있었지만, 제한된 개발 리소스로 다양한 운영체제를 지원하는 것보다는 선택과 집중을 통해 CUBRID 제품의 성능 향상과 기능 개선에 초점을 맞추었습니다. 사실, 다양한 운영체제를 지원하기 위해서는 개발 및 QA 인프라 구축, 운영체제 포팅, 그리고 서스테이닝 등 상당한 비용이 수반될 수 밖에 없습니다. 최근 IT 시장조사 기관인 가트너의 2017년 2분기 세계 서버 매출 결과를 보면 x86 서버는 출하량 2.5%, 매출 6.7% 증가한 반면, Unix 서버(RISC·아이테니엄 서버)는 각각 21.4%, 24.9% 하락했습니다. -> 관련 기사: HPE, 2017년 2분기 서버 매출 1위 유지(블로터닷넷, 2017.09.14) Unix 서버 출하량과 매출이 급격하게 추락하는 원인에는 ...
    Date2017.09.15 Category시장 살펴보기 By정병주 Views1823 Votes0
    Read More
  4. 클라우드와 리눅스, 그리고 마이크로소프트

    2014년 10월 미국 샌프란시스코에서 개최된 마이크로소프트 기자간담회에서 2월에 취임한 신임 CEO인 사티아 나델라(Satya Nadella)는 “Microsoft loves Linux”라는 메시지를 전달함으로써 시장에 충격을 주었습니다. 왜냐하면 전임 CEO인 스티브 발머(Steve Ballmer)는 리눅스를 “암(cancer)”적인 존재라는 표현으로 적대시 해왔고, 마이크로소프트 회사 자체가 독점(proprietary) 소프트웨어를 통해 엄청난 수익을 창출한 대표적인 기업이기 때문입니다.  마이크로소프트는 CEO가 바뀌었을 뿐인데 어떻게 리눅스를 바라보는 회사의 입장이 180도 바뀌었을까요? 사티아 나델라 CEO의 설명을 들어보면 이미 마이크로소프트 애저(Azure) 플랫폼의 VM (Virtual Machine) 중에 약 20% 정도가 오픈소스 운영체제라는 것입니다. 따라서, 마이크로소프트 애저 플랫폼을 확산시키기 위해서는 리눅스 사용자들을 수용할 수 밖에 없었던 것이며, 실질적으로 ‘마이크로 소프트의 밥줄은 윈도우가 아니다.’라는 기사를 확인해 보면, 2015년 4사분기 기준으로 매출 실적 1위는 클라우드 서버, 2위는 게임 부문, 3위 오피스, 4위 윈도우 순으로 나타납니다. (윈도우의 전체 매출 비중은 10%)...
    Date2017.09.06 Category시장 살펴보기 By정병주 Views1232 Votes0
    Read More
  5. 큐브리드, 글로벌을 꿈꾸다.

    큐브리드가 꿈꾸는 글로벌 .. 큐브리드의 글로벌에 대한 짧은 이야기를 시작하려고 한다. 우선, 글로벌이라는 단어를 떠 올리면 내 머릿속에는 모 그룹총수의 저서인 “세계는 넓고 할 일은 많다” 라는 책이 언뜻 떠오른다. 책을 읽었던 그 시절에 ‘만약, 세계를 목표를 어떤 일을 한다면 정말 열심히 그리고 제법 스마트한 머리로 지혜롭게 해야겠다’ 라는 생각을 가졌었던 것 같다. 물론, 그 점은 지금 시점에도 분명한 조건 중에 하나라고 믿고 있다. 왜냐하면, 글로벌은 생각보다 참 넓고 모르는 게 많기 때문이다. 오픈소스 DBMS 기업인 큐브리드가 글로벌에 대한 꿈을 꾸기 시작한 것은 제법 오래 되었고, 그 증거로 큐브리드는 이미 아시아국가에 제법 규모 있는 적용사례를 가지고 있다. 그렇지만, 큐브리드가 오픈소스로 체질을 전환한 후 본격적으로 해외를 바라보고 실행에 옮기는 것은 이번이 처음이다. 특히나, 큐브리드는 제한된 인력과 투자자금으로 글로벌화에 대하여 다른 기업들과 조금 다른 행보를 가려고 노력하고 있다. 큐브리드의 경우를 살펴보기에 앞서, 한국 소프트웨어 기업들의 눈높이를 살짝 열어 보면 이런 세가지 방향으로 정리할 수 있지 않을까...
    Date2010.03.18 Category시장 살펴보기 Bythedot Views30773 Votes0
    Read More
  6. 객체관계형 데이터베이스는 왜 성공하지 못한건가요?

    이틀 전 큐브리드닷컴 자유게시판에 "객체관계형데이터베이스는 왜 성공하지 못한건가요?"라는 제목으로 문의가 올라왔습니다. 처음에는 댓글 수준에서 간단하게 답변을 드릴까 했었는데 좀더 상세하게 설명을 드리는 것이 좋을 것 같아 정리를 해 보았습니다. 하지만, 제가 개발자나 엔지니어가 아니기 때문에 기술적인 관점보다는 전체적인 시장 관점에서 정리를 하였으며, 다른 시각 혹은 관점이 있을 수 있다는 전제하에서 출발을 하고자 합니다. 우선, 객체관계형(Object-Relational) 데이터베이스에 대해서 살펴보면, ORDB의 연구는 마이클 스톤브레이커 박사와 같은 선구자들에 의해 1980년대에 진행되었으며, 기존 관계형(Relational) 데이터베이스 개념에 객체 개념을 추가한 것입니다. 따라서, 객체지향형(Object-oriented) 데이터베이스와 달리 관계형 데이터베이스의 “편의성(표준 SQL 지원)과 성능을 계승”하고, 객체 개념을 통한 “모델링 장점”이 포함되어 있습니다. 1980년대의 리서치 이후 1990년 초중반에 상용화 제품들이 나오기 시작하는데, 대표적인 제품 중에 하나가 일러스트라(Illustra) - 일러스트라의 모태는 UC Berkeley의 Postgres 리서치 프로젝트...
    Date2010.01.30 Category시장 살펴보기 By정병주 Views44446 Votes0
    Read More
  7. DBMS시장, 그리고 CUBRID

    요즘 고민들. 어떻게 하면..? 어떻게 하면 더 많은 개발자들이 개발에 참여할까? 어떻게 하면 더 좋은 제품을 만들까? CUBRID 소스를 오픈한 후 머리 속에서 떠나지 않는 질문들이다. 누군가가 이런 질문들에 대해 실행 가능한 정답을 건네주면 참으로 좋으련만… 요즘 신문지 상에 오르내리는 자동차 업계 소식을 보고 있자니, 문득 자동차 시장과 DBMS 시장의 공통점이 많다는 생각이 든다. 자동차 시장과 DBMS 시장.. 자동차를 구매하는 소비자는 무려 80% 이상이 남성이라고 한다. DBMS 선정에 관여하는 소비자 역시 남성이 대부분을 차지하는 것은 두말하면 잔소리다. 또한, 자동차 구매와 애프터 서비스(A/S)가 유기적 관계를 이룬다는 점에서도 DBMS와 유사하다. DBMS의 경우 기술지원 서비스의 품질과 유지보수 비용을 필수적으로 고려해야 하기 때문이다. 그리고, 외산 자동차에 대한 신뢰성이 높다는 점도 유사하다. 이것은 자동차나 DBMS 의 주요 업체가 해외(미국, 일본, 독일 등)에 기반을 두고 있으며, 시장 개척자로서 장기간 더 많은 기술력을 축적했기 때문일 것이다. 주요 구매 결정 요소로는 성능, 디자인, 비용, 안전성.. 다음은 국내 경영 대학원의 논문...
    Date2008.12.24 Category시장 살펴보기 ByCUBRID_DEV Views74429 Votes0
    Read More
  8. 큐브리드 인수 및 오픈소스화에 대한 피드백

    두달 전에 내부 참고용으로 정리했던 문서를 블로그 형태로 편집하였습니다. 9월 30일 NHN 자회사인 서치솔루션의 큐브리드 인수 및 오픈소스화에 대한 피드백을 정리한 내용으로 KLDP 및 네이버 블로그/뉴스/카페를 조사하였으며(검색어: 큐브리드), 기간은 2008년 9월 30일(화)부터 10월 17일(금)까지 총 18일입니다. 1. KLDP KLDP는 국내 최대 FOSS (Free/Open Source Software) 커뮤니티로서 OSS 의견 수렴의 바로미터 사이트입니다. KLDP는 원래 LDP (Linux Documentation Project)의 한글 문서 작업 공간으로서 리눅스를 중심으로 한 자유 소프트웨어, 오픈소스 소프트웨어 전반에 걸친 문서화 작업에서 주로 많은 성과를 만들어 왔으며, 그러한 작업 결과물들은 모두 자원봉사자들의 자발적인 활동으로 이루어졌습니다. 1996년 10월에 권순선(설립/운영자)님의 개인 홈페이지로 출발하여 리눅스 관련 문서를 한글로 번역해서 인터넷으로 제공하는 것을 주 활동으로 운영되었고, 현재는 문서화뿐만 아니라 커뮤니티, 개발자 공간, 프로젝트 호스팅 등 다양한 활동들을 진행해 나가고 있는, 국내에서 가장 오래되고 가장 활성화된 FOSS 개발자/사용자 커뮤니티입니다. 10...
    Date2008.12.15 Category시장 살펴보기 By정병주 Views41392 Votes0
    Read More
Board Pagination Prev 1 Next
/ 1

Contact Cubrid

대표전화 070-4077-2110 / 기술문의 070-4077-2113 / 영업문의 070-4077-2112 / Email. contact_at_cubrid.com
Contact Sales