Background Image
질의작성
2009.12.02 08:52

예제를 이용한 중복데이터 삭제

조회 수 18541 추천 수 0 댓글 0
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄

중복된 데이터 중 가장 최근의 ROW만을 나두고 삭제하는 방법이다.
아래와 같이 테이블을 만들어 보자.
 CREATE TABLE DUP(ID INT, NAME CHAR(3),  SEQ INT, UPDATE_TIME CHAR(10));
 INSERT INTO DUP VALUES (1, 'AAA', 1, '2010-01-01');
 INSERT INTO DUP VALUES (1, 'AAA', 2, '2010-01-02');
 INSERT INTO DUP VALUES (1, 'AAA', 3, '2010-01-03');
 INSERT INTO DUP VALUES (1, 'AAA', 3, '2010-01-04'); 
 
DUP 테이블 전체 조회를 하면 아래와 같다.
           id  name                          seq  update_time        
======================================================================
            1  'AAA'                           3  '2010-01-04'       
            1  'AAA'                           3  '2010-01-03'       
            1  'AAA'                           2  '2010-01-02'       
            1  'AAA'                           1  '2010-01-01'     


ID, NAME컬럼이 중복된 ROW 중에서 나중에 들어온 SEQ값이 3인 ROW만 남기고 싶을 경우 아래와 같이 질의를 수행해 보자.
SELECT * FROM DUP WHERE ROWNUM NOT IN (SELECT MAX(ROWNUM) FROM DUP GROUP BY ID, NAME);
           id  name                          seq  update_time        
======================================================================
            1  'AAA'                           1  '2010-01-01'       
            1  'AAA'                           2  '2010-01-02'       
            1  'AAA'                           3  '2010-01-03'

위에 남아 있는 3개의 ROW를 삭제 하면 가장 최근인 UDATE_TIEM 값이 2010-01-04 인 ROW만 남을 것이므로 아래와 같이 DELETE를 수행한다.
DELETE FROM DUP WHERE ROWNUM NOT IN (SELECT MAX(ROWNUM) FROM DUP GROUP BY ID, NAME);

중복된 데이터를 찾기 위해 사용된 ROWNUM은 오라클의 ROWID와 유사하다고 볼 수 있다.
위에 질의를 풀이하면, DUP테이블의 ID, NAME으로 그룹화 하고 그중에 최대값(가장 나중에 들어온)을 가진 ROW를 찾아
DUP테이블 전체 ROW를 조회하여 찾은 ROW보다 작은(NOT IN) ROW에 대하여 삭제를 수행하는 것이다.
ROW단위 FULL SCAN을 하는 것이므로 중복된 데이터가 많거나 테이블의 데이터 수가 많을 경우 오래 걸리수 있으므로 주의해서 사용해야 한다.

이와 반대로 먼저 입력한 ROW만을 남기고 싶다면 위 질의에서 MAX를 MIN으로 바꿔주면 된다.
SELECT * FROM DUP WHERE ROWNUM NOT IN (SELECT MIN(ROWNUM) FROM DUP GROUP BY ID, NAME);
아래와 같이 출력된 ROW를 삭제하면 UDATE_TIEM 값이 2010-01-01 인 ROW만 남게 된다.
           id  name                          seq  update_time        
======================================================================
            1  'AAA'                           2  '2010-01-02'       
            1  'AAA'                           3  '2010-01-03'       
            1  'AAA'                           3  '2010-01-04'  

중복된 데이터의 기준을 NAME과 SEQ로 보았을 때 아래 질의와 같이 GROUP BY ID, SEQ로 지정하면 된다.
SELECT * FROM DUP WHERE ROWNUM NOT IN (SELECT MAX(ROWNUM) FROM DUP GROUP BY NAME, SEQ);
           id  name                          seq  update_time        
======================================================================
            1  'AAA'                           3  '2010-01-03'       
 
NAME이 AAA이고 SEQ가 3인 값이 중복 되어 먼저 들어온 UPDATE_TIME값이 2010-01-03 인 ROW를 찾은 것이다.
이 질의도 동일하게 DELETE를 수행하여 삭제를 하면 NAME과 SEQ를 기준으로 가장 최근의 ROW만 존재하도록 할 수 있다.

위 방법을 활용하여 UNIQUE INDEX 혹은 PK의 제약 조건을 부여 할 수 있다.


 


List of Articles
번호 분류 제목 글쓴이 날짜 조회 수
119 질의작성 function based index 대체 방법 남재우 2010.07.01 13420
118 응용개발 PHP에 CUBRID 모듈 추가시 모듈이 로드되지 않는 문제에 대한 해결 방안 하나입니다 남재우 2010.07.01 16557
117 응용개발 CUBRID에서 CHAR와 NCHAR의 차이점 cubebridge 2010.07.01 21319
116 CUBRID 매니저 CUBRID HA 또는 복제를 사용하는 경우 CUBRID 매니저를 통한 테이블, 컬럼 등 생성 금지 3 손승일 2010.07.01 17469
115 응용개발 cubrid-php module r2.2 이상 버젼에서 configure시에 주의사항 seongjoon 2010.07.20 14007
114 질의작성 데이터 존재하면 update, 존재하지 않으면 insert 방법(ON DUPLICATE KEY UPDATE) 손승일 2010.08.11 38000
113 응용개발 CUBRID와 Oracle에서의 ''(공백)의 차이 비교 cubebridge 2010.10.01 28584
112 운영관리 windows 환경에서 Manager 접속이 되지 않는 경우 처리 방안 남재우 2010.11.26 14423
111 응용개발 CUBRID R3.0부터 JDBC를 사용하는 응용에서 charset 설정 방법이 변경되었네요. 손승일 2010.12.02 19635
110 운영관리 큐브리드 + 아파치 + php 설치 및 연동 1 하하보이 2010.12.15 21900
109 운영관리 CUBRID 4.0 서버 재부팅 후 CUBRID Tray 기동문제 해결방법 정만영 2011.08.31 12420
108 운영관리 CUBRID 4.0 버전 IP/db_user 접속 제한 추가 기능 이용미 2011.12.09 9261
107 질의작성 오라클의 order by 시 first와 last 대체 사용법 file 이용미 2011.12.22 20178
106 기타 CUBRID csql -i 옵션 사용시 주의 사항 이용미 2011.12.22 9174
105 응용개발 CUBRID에서 SQL힌트와 주석을 쓸 때 순서. cubebridge 2012.01.11 13324
104 응용개발 Weblogic 10.0 사용시 JDK 1.5를 사용한 JDBC 드라이버 사용시 주의사항. cubebridge 2012.02.22 51957
103 마이그레이션 오라클 to CUBRID로 마이그레이션 수행 시 주의사항 정만영 2012.03.02 21057
102 마이그레이션 MySQL에서 사용하는 스키마 변환시 주의 사항 정만영 2012.03.02 13256
101 응용개발 utf-8로 저장된 한글이 JAVA SP를 사용하여 읽어 오면 깨져 보일때 손승일 2012.03.10 20800
100 질의작성 여러건의 코드명을 한건으로 조회하는 쿼리입니다. 1 권호일 2012.03.30 10756
Board Pagination Prev 1 ... 4 5 6 7 8 9 10 11 12 13 14 Next
/ 14

Contact Cubrid

대표전화 070-4077-2110 / 기술문의 070-4077-2113 / 영업문의 070-4077-2112 / Email. contact_at_cubrid.com
Contact Sales