기본 콘텐츠로 건너뛰기

DB튜닝 전문가 망했습니다..ㅠㅡㅠ




지금 프로젝트에서 개발자들이 프로시저를 만들다보니
 개발자의 의식의 흐름대로 데이터 처리를 만들다보니 커서를 이용해서 테이블 변수에 넣고
 그걸.  변수로 다른 테이블에서 조회하는 식으로 짜놨네요.. 

튜닝할 때 항상 하는 이야기 이죠.. Trigger와 커서는 절대 쓰지 말라구요.. 
이것처럼 속도를 저하시키고 락을 유발 시키는 장치는 없거든요.. 

 트리거는 트리거링 포인트가 되었을 때 대상 테이블을 락을 건 뒤에 트리거 처리를 하고 나서 락을 해제 하기 때문에 아무리 빨리 끝나도 동시에 들어오는 쿼리에 따라서는 데드락에 빠질 가능성도 있습니다. 
 마찬가지로 커서 역시 테이블을 열고 커서를 만들어 처리하기 때문에 그 모든 처리가 끝날 때까지 락이 걸린 상태가 됩니다. 데이터가 변동하면 안되니까요..

 그래서 트리거와 커서를 사용하면 기본 서너배는 느려집니다. 
커서랑 트리거만 없어도 50만명 받을 서비스가 15만명도 못받게 되는거죠..
경우에 따라서는 수백배 느리게 짤 수도 있는게 커서와 트리거 입니다.
그냥 서비스를 떨구든 말든 자기 편한대로 만들겠다는 생각이 있지 않는한 커서는 피하셔야 합니다. 

 개발자들이 커서를 많이 이용하는 이유는 커서를 이용해서 만들면 복잡한 처리를 할 때 별로 생각하지 않고 개발 코드처럼 만들어도 가능하기 때문이죠

 이번 쿼리도 커서를 사용해서 아주 길게 만들어놨네요.. 
 한 줄 읽어서 상태에 따라서 데이터를 매핑해서 테이블 변수에 넣고를 쭈욱 한 뒤에
 그 테이블 변수를 다시 읽어서 다른 테이블의 값을 가져오는데.. 

 튜닝을 잘하려면 이 모든 데이터가 머리속에 연결구조를 그려서 
 하나의 비정규화 된 배열을 만들 수 있어야 합니다. 

 매번 이야기 하지만, 
 DB엔진이 강력한 이유는 데이터 처리를 할 때 
 한 줄씩 읽어서 처리하는게 아니라 배열 계산을 해주기 때문에
 배열 x 배열을 하는 시간과 한 라인 처리하는 시간이 거의 같습니다. 
 물론 엄밀히 이야기 하면 내부적으로 계산하는 개수가 있으니 조금 다르지만;;

커서로 10만줄을 계산하는 쿼리가 있어 1분 걸렸다면
배열 계산으로 0.05초 정도에 나오게 되죠.. 

 배열을 한 번에 계산하는 능력이 CPU에는 있기 때문에 
 배열 처리 속도는 엄청나게 빠릅니다. 

 그래서 튜닝을 잘하는 사람은 
 배열을 잘 만들어서 계산을 던지는 사람인 것이지요. 

 이번에도 자세히 보니까 뭔가 무지무지 복잡하지만, 
 대충 머릿속에 그려보니 전부 JOIN 가능하지 않을까?
 라는 생각을 했는데.. 

 요즘 머리가 안돌아가고 귀차니즘이 발발.. 
 이 때 생각난 것이 chatgpt.. 

 너의 실력을 보여줘!

 하고 쿼리를 통으로 던지고 커서좀 없애줘!
 라고 간다하게 말했습니다. 

 그랬더니 커서를 JOIN으로 바꾼 결과를 주었네요!

 오오오오!

 실 데이터로 기존 SP와 커서를 뺀 새로만든 SP를 실행시켜 결과가 같음을 확인하고
 이걸 그대로 고객에게 줬습니다. 

 성능은 약 10%가까지 향상 되었네요..
아마도 테이블 변수에 넣고 재쿼리 하고를 반복했기 때문에 커서로 인한 효과는 10%정도였나 봅니다.

 그런데.. 잘 생각해보니.. 커서도 없애주는데 테이블 변수도 없애고 그냥 JOIN해도 되지 않나?
 싶어서 chatgpt에게 

 커서를 없애고, 테이블 변수나 temp table도 없애줘.
 라고 했더니.. 

 뭔가 생각보다 많이 짧은 쿼리를 받았습니다. 

 이걸 SP v3으로 만들어서 서로 결과 비교를 했더니 정상으로 보이는 것 같네요.. 

 성능을 비교했더니.. 
4배 빨라짐!

 아주 좋잖아?
 하고 줬는데… 문득 생각이 났습니다. 

 지금 이거 내가 아니고 고객이 
내가 한 것처럼 chatgpt에게 지시만 하면 
난 필요 없어지는거 아닌가?

 음…

 그래도 아직까진 이렇게 chatgpt에게 던지는 사람이 적다는 것에 
 가슴을 쓸어내리며

 가급적 chatgpt가 이정도의 능력을 갖고 있다는 사실을
 많은 사람이 알지 못하길 기도해봅니다. ;;;

 이 정도까지 쿼리를 튜닝해버리면, 
 이젠 나를 부를 고객도 줄어들지 않을까 
 걱정을 해보면서 

 AI시대에 
 뭘로 먹고살지 고민을 하게 하는 하루였습니다. 



giip :: Control all Robots and Devices! Free inter-RPA orchestration tool! https://giipasp.azurewebsites.net/

댓글

이 블로그의 인기 게시물

Alter table 에서 modify 와 change 의 차이 :: SQL Server

두 개의 차이를 모르는 경우가 많아서 정리합니다.  modify는 필드의 속성값을 바꿀때 사용하구요.. change는 필드명을 바꿀떄 사용합니다.  alter table tbbs modify bNote varchar(2000) NULL; alter table tbbs change bNoteOrg bNoteNew varchar(2000) NULL; change에는 원래 필드와 바꾸고 싶은 필드명을 넣어서 필드명을 바꾸는 것이죠~ 더 많은 SQL Server 팁을 보려면  https://github.com/LowyShin/KnowledgeBase/tree/master/wiki/SQL-Server giip :: Control all Robots and Devices! Free inter-RPA orchestration tool! https://giipasp.azurewebsites.net/

책에서는 안 알려주는 대규모 트래픽을 위한 설계

음성 버전 :  https://www.youtube.com/watch?v=ZZlW6diG_XM 대규모 트래픽을 커버하는 첫 페이지 만드는 법..  보통 DB를 연결할 때 대규모 설계는 어떻게 하시나요?  잘 만들었다는 전제 하에 동접 3000명 이하는  어떤 DBMS를 사용해도 문제 없이 돌아갑니다.  여기서 이미 터졌다면 이 콘텐츠를 보기 전에 DB의 기초부터 보셔야 합니다.  아.. 개발 코드가 터졌다구요? 그럼 개발자를 때리셔야지요..  만약 3000명을 넘겼다면? 이제 Write/Read를 분리해서  1 CRUD + n개의 READ Replica를 만들겠죠?  보통 Read Replica는 5개가 최대라고 보시면 됩니다.  누가 연구한 자료가 있었는데...  6번째 레플리카를 만든느 순간 마스터가 되는 서버의 효율 저하 때문에  5번째에서 6번쨰로 올릴때의 성능이 급격히 줄어든다는 연구 결과가 있습니다.  때문에 Azure에서도 replica설정할 때 5대까지 밖에 설정 못하게 되어 있지요.  유저의 행동 패턴에 따라 다르긴 하지만,  1 CRUD + 5 Read Replica의 경우 동접 15000명 정도는 커버 합니다.  즉, 동접 15000명 에서 다시 터져서 저를 부르는 경우가 많지요..  이 때부터는  회원 DB, 게시판DB, 서비스DB, 과금 DB 등등 으로 성격, 서로의 연관도에 따라 나누기 시작합니다.  물리적으로 DB가 나눠지면 Join을 못하거나 Linked Table또는 LinkDB등의 연결자를 이용해서 JOIN이 되기도 합니다.  그에 따라 성능 차이가 생기지만 가장 중요한 포인트는  서로 다른 물리적 테이블의 JOIN은 인덱스를 타지 않는다!  라는 것입니다. 즉, JOIN할 테이블들을 최소한으로 만든 뒤에 JOIN을 걸지 않으면 NoSQ...

BI의 궁극판! Apache Drill을 써보자!

사실 Apache Drill 은 BI(Business Intelligence)라고 부르는 것 보다는 단순 데이터 연결 엔진이다. https://drill.apache.org/ 하지만 내가 왜 극찬을 하느냐면.. DBA로서 항상 문제가 되어왔던게, 이기종 데이터의 변환이나 처리였다. 포맷을 맞추는데 엄청난 시간이 걸리고, 데이터 임포트 실패가 무수하게 나고.. 한 번 잘못 데이터를 추출하면 다시 조정, 변환, 추출하는데 시간이 많이 걸린다. 그런데! Apache Drill은 그냥 RDB를 CSV랑 연결해서 조인해서 통계를 낼 수 있다. 그것도 표준 SQL을 사용하여! 예를 들어, CSV의 세 번째 컬럼이 price 이고, 물건의 판매이력을 PG사에서 CSV로 출력 받았다. 우리 DB와의 검증을 위해서는 수동으로 Import를 한 뒤에 포맷이 안맞아 잘리는 데이터가 있다면 다시 맞춰주고, 재 임포트를 수십 번, 그리고 나서 겨우 들어간 데이터를 조인하여 빠진 데이터를 분간한다. 숫자가 적다면 개발자가 개발로 처리할 수도 있지만, 건수가 하루에 300만건 짜리라면.. 한 달 온 파일은 9천만 건이다. 프로그램으로 고작 처리하는 것이 초당 500건. 거의 20만초, 에러 없이 약 56시간.. 에러가 생기면 다시 56시간.. ㅠㅡㅠ 이런게 현실이기 때문에 쿼리 말고는 방법이 없다. apache drill 의 진면목을 보자! 이번에는 좀 범용 적인 MySQL DB와 붙여 보자. . 난 이번에는 Mac에서 작업을 했기 때문에 그냥 다운 받아서 풀었음.. https://drill.apache.org/download/ 여기서 자기 OS에 맞는 버전을 받아서 설치하시길.. 압축을 풀고 나면 MySQL 커넥터를 붙여야 한다. https://dev.mysql.com/downloads/connector/j/5.1.html 여기서 다운로드 이런 커넥터 들을 붙일 때마다 콘피그를 수정해 줘야 하지만, 몇 번만...