기본 콘텐츠로 건너뛰기

TiDB의 PoC결과에 태클 걸기




이번엔 기술 vlog입니다. 

제 기술 관련 이야기를 기다리시다가
쓸데없는 바이크 이야기 같은거 자주 올리니
구독 취소를 하시는 분들이 급증 했네요 ㅠㅡㅠ

사실 처음부터 자기 미래를 설계하는데 도움되는 정보를 찾으시는 분들이 
들어오시는 곳이었으니 그렇겠지요.. 

그래도 일본에서 IT하는 사람이
이렇게 놀기도 하는 구나 하고 
일본에서의 취미 생활에 참고도 해주셨으면 합니다. ^^;;;

아뭏든 기다리시던 이야기를 해드릴께요~

7월부터 참가했던 SQL Server를 TIDB로 전환하는 프로젝트가 
어느덧 많은 준비를 마치고
최종 PoC를 진행하고 있습니다. 

제가 초기에는 TiDB가 더 느릴걸요? 등등의 가벼운 반박 정도를 하면서
어짜피 회사의 70명이 넘는 인원이 이 프로젝트에 연관되어
이전이 결정이 된 상태였습니다. 

지난 번 DNP(대일본 출판, 일본 최대의 출판회사) 사건도 있었다보니
사실을 이야기하면 안되겠다 싶어서 그냥
시키는대로만 도와주려고 슬렁슬렁 하고 있었습니다. 

그렇게 열심히 WBS도 만들어서 많은 부서에서 체크하고 2차 PoC까지 끝내던 어느날 이었습니다. 
PoC결과 표를 보면서 리포트를 작성하는 회의를 했는데, 
저도 초대 받아서 참여를 했지요. 
1TiDB + 3TiKV에서 2TiDB + 6TiKV까지 4가지 패턴으로 테스트를 한 결과를 바탕으로 스파이크에 대한 이유와 해결 방법 등을 적으려고 TiDB쪽 사람이랑 이야기를 하던 중이었습니다. 

2TiDB + 6TiKV만 스파이크가 없고
1TiDB + 3TiKV, 1TiDB + 6TiKV나 2TiDB + 3TiKV가 모두 스파이크가 존재했는데요. 
TIDB담당자는 이 이유에 대해서는 그 떄 마침 무거운 쿼리가 들어왔을 거라고 몰아가고 있었습니다. 
그런데 테스트 한 사람은 그냥 같은 쿼리를 반복해서 돌렸는데… 라면서 반신반의로 받아들이더라구요..
그도그럴게 그 대답만으로는 고객이 명쾌하게 OK를 내지 못할 거 같더랍니다. 

갑자기 PoC결과 회의에서 CTO에게 전제 조건이 맞는지에 대한 문의가 왔다고 제게 연락이 왔네요. 

이 때까진 전 SQL Server운영 효율화만 도와주고 있었거든요.. 

그래서 지금 서비스에서 운영 중인 SQL서버의 상황을 어느정도 파악을 한지라, 
이번 PoC결과랑 적용한 데이터를 달라고 했습니다. 

PoC결과를 보고 리포트를 봤습니다. 
리포트는 2TiDB + 6TiKV가 스파이크가 없으니 이를 채택해야 한다 라는 내용 뿐이었습니다. 
그리고 스파이크의 원인에 대해 기재해 달라는 CTO의 질문이 있어서 
그걸 이번에 TiDB쪽으로 들어온 사람은 
스파이크가 있는 부분이 우연히 무거운 쿼리가 왔다고 이야기를 했네요.. 
그런데, 쿼리는 40종을 추출 해서 랜덤으로 던진거 거든요.. 

그러니 테스트를 4번 했는데 세 번이 우연으로 무거운 쿼리가 들어왔다는게 
일단 좀 이상하구요.. 

40종의 쿼리를 초당 2000번 15분간이나 던졌는데, 
왜 우연히 세 번이나 마지막에 무거운 쿼리가 몰렸다고 자신있게 말할 수 있는 것일까요?

오히려 전 다른 지표에 주목을 했습니다. 

1번을 보면 QPS의 Duration이 점점 늘어나는 것이 확연하게 보였다가 마지막에 튀어 올랐지요. 
아마도 쿼리 처리량 보다 쿼리 요청 수가 많아서 chain lock에 의해 점점 지연되다가 마지막에 튀어 오른 것으로 보입니다. 

그럼 2, 3은 들쑥날쑥 하잖아요? 
2번은 TiDB를 2대로 두 배 늘리고 TiKV를 3그대로 두었을 떄입니다. 
Duration이 조금 들쑥날쑥 하지만 그래도 마지막까지 어느 선을 유지하다가 나중에 갑자기 터졌죠.. 
TiDB로 인해 받아들인 쿼리 수와 나가는 쿼리수는 어느정도 안정을 취했지만, 
TiKV 수가 부족하여 저장소 캐시가 바닥을 드러내는 순간 튀어 오른 것으로 판단됩니다. 

3번은 처음부터 Duration이 어느 정도 올라갔죠.. 
아마 1번 테스트로 인한 캐시가 정리 안된 상태라서 처음부터 조금 올라간 상태로 시작한 듯 보이는데, 
TiKV가 6으로 설정된 덕분에 
마지막에 TiKV의 캐시가 바닥을 드러내기 전에 끝이 나서 어느 정도 높은 부하에서 엄청나게 튀지 않은 것이라 봅니다. 

4번은 당연히 TiDB도 충분히 여유가 있어 들어오는 쿼리와 결과의 리턴이 여유가 있던 것이고, 
TiKV도 충분히 여유가 있어 IO퍼포먼스가 따라온 덕분이겠지요. 

그래서 결론은 
이 걸로 테스트 끝이 아니라
TiDB가 1 대 일 때 QPS를 점점 늘려가면서 피크치는 타이밍을 체크하고, 
TiKV가 3대일 떄 QPS를 점점 늘려가면서 체크
그리고 TiDB가 2대가 될 때 안정적인 한계 QPS를 테스트하고, 
TiKV역시 6대 일 떄 안정적인 한계 QPS를 찾아서 
몇 QPS에서 TiDB를 또는 TiKV를 늘리는게 좋은지를 계산하는 공식을 만들어 
서비스에 제공해야 하지 않을까요?

퍼포먼스 테스트라는 것은
현재 상태의 퍼포먼스 한계를 측정해서 
한계를 벗어나는 포인트를 찾고, 
그 한계의 몇 %에 도달 했을 떄에 
어떤 노드를 늘려야 하는지를 찾는데에 있다고 보는데, 
이번 테스트 결과는 엄청 이쁘게 잘 만들었음에도
이런 내용이 하나도 없어서 CTO도 답답했던게 아닐까요?

저야 토요타를 비롯해서 여러 프로젝트에 
퍼포먼스 튜닝 및 인프라 확장 프로젝트를 중심으로 들어가다보니
인프라 확장의 당위성과 예산 편성, 사이징 등을 리포팅 해봤기 때문에
이렇게 대답이 가능했던 것 같습니다. 

하지만, 이번 프로젝트에 모인 사람들은
그냥 TiDB측에서 조금 교육해주고 부른 사람들 같더라구요.. 
그 때문에 TiDB를 왜 적용해야 하는지에 대한 당위성 없이
영업으로만 끌고가다보니
CTO에게는 만족스러운 리포트를 하지 못하는게 아닐까 싶습니다. 

지금도 전 SQL서버 그대로 놔두고 TiDB를 버리는 쪽에 손을 들고 있지만, 
이미 영업으로 TiDB로 이전이 확정된 상태이다 보니
할 수 없이 따라가 주고는 있는데요.. 

TiDB를 이딴 식으로 구성해서 운영했다간
SQL서버일 때보다 퍼포먼스가 안나오면서 비용만 비싼
애물단지가 될 수가 있을 거 같네요..

물론 TiDB라는 NoSQL엔진 특성을 잘 알고 
설계하고 튜닝한다면 SQL서버보다 좋은 결과를 낼 수도 있지만
현재로선 그렇게 할 수 있는 인재는 없어 보입니다. 

제가 몇 번이나 NoSQL의 한계에 대해서 콘텐츠로 설명했었지요?
NoSQL은 특정 영역에서는 RDBMS에서는 넘볼 수 없는 능력을 가졌지만, 
일반적인 릴레이셔널 데이터에서는 
NoSQL의 한계는 명확합니다. 
제대로 설계하지 않으면 RDBMS보다 수십배가 느려지던지
아니면 정합성 체크에 엄청난 개발 코스트를 감당하던지 해야 합니다. 

이걸 보신 여러분은
이제 퍼포먼스 분석 방법을 알게 된 것이고
무엇을 테스트해서 무엇을 정리해야 하는지를 알게 되신 겁니다. 
그리고 RDBMS와 NoSQL의 특성에 대해서도 조금은 더 깊이 있게 아셨겠지요..
MySQL의 SQL만 사용한다고 RDBMS와 같아질 수 없습니다. 

RDBMS란 것은 JOIN이 특화된 작은 데이터의 집합입니다. 
NoSQL은 JOIN이 가장 느린 직렬형 대규모 데이터의 집합입니다. 

이걸 머릿속에 두시고 
들어간 프로젝트에서 안전하게 사용하시길 바랍니다!



giip :: Control all Robots and Devices! Free inter-RPA orchestration tool! https://giipasp.azurewebsites.net/

댓글

이 블로그의 인기 게시물

Alter table 에서 modify 와 change 의 차이 :: SQL Server

두 개의 차이를 모르는 경우가 많아서 정리합니다.  modify는 필드의 속성값을 바꿀때 사용하구요.. change는 필드명을 바꿀떄 사용합니다.  alter table tbbs modify bNote varchar(2000) NULL; alter table tbbs change bNoteOrg bNoteNew varchar(2000) NULL; change에는 원래 필드와 바꾸고 싶은 필드명을 넣어서 필드명을 바꾸는 것이죠~ 더 많은 SQL Server 팁을 보려면  https://github.com/LowyShin/KnowledgeBase/tree/master/wiki/SQL-Server giip :: Control all Robots and Devices! Free inter-RPA orchestration tool! https://giipasp.azurewebsites.net/

책에서는 안 알려주는 대규모 트래픽을 위한 설계

음성 버전 :  https://www.youtube.com/watch?v=ZZlW6diG_XM 대규모 트래픽을 커버하는 첫 페이지 만드는 법..  보통 DB를 연결할 때 대규모 설계는 어떻게 하시나요?  잘 만들었다는 전제 하에 동접 3000명 이하는  어떤 DBMS를 사용해도 문제 없이 돌아갑니다.  여기서 이미 터졌다면 이 콘텐츠를 보기 전에 DB의 기초부터 보셔야 합니다.  아.. 개발 코드가 터졌다구요? 그럼 개발자를 때리셔야지요..  만약 3000명을 넘겼다면? 이제 Write/Read를 분리해서  1 CRUD + n개의 READ Replica를 만들겠죠?  보통 Read Replica는 5개가 최대라고 보시면 됩니다.  누가 연구한 자료가 있었는데...  6번째 레플리카를 만든느 순간 마스터가 되는 서버의 효율 저하 때문에  5번째에서 6번쨰로 올릴때의 성능이 급격히 줄어든다는 연구 결과가 있습니다.  때문에 Azure에서도 replica설정할 때 5대까지 밖에 설정 못하게 되어 있지요.  유저의 행동 패턴에 따라 다르긴 하지만,  1 CRUD + 5 Read Replica의 경우 동접 15000명 정도는 커버 합니다.  즉, 동접 15000명 에서 다시 터져서 저를 부르는 경우가 많지요..  이 때부터는  회원 DB, 게시판DB, 서비스DB, 과금 DB 등등 으로 성격, 서로의 연관도에 따라 나누기 시작합니다.  물리적으로 DB가 나눠지면 Join을 못하거나 Linked Table또는 LinkDB등의 연결자를 이용해서 JOIN이 되기도 합니다.  그에 따라 성능 차이가 생기지만 가장 중요한 포인트는  서로 다른 물리적 테이블의 JOIN은 인덱스를 타지 않는다!  라는 것입니다. 즉, JOIN할 테이블들을 최소한으로 만든 뒤에 JOIN을 걸지 않으면 NoSQ...

BI의 궁극판! Apache Drill을 써보자!

사실 Apache Drill 은 BI(Business Intelligence)라고 부르는 것 보다는 단순 데이터 연결 엔진이다. https://drill.apache.org/ 하지만 내가 왜 극찬을 하느냐면.. DBA로서 항상 문제가 되어왔던게, 이기종 데이터의 변환이나 처리였다. 포맷을 맞추는데 엄청난 시간이 걸리고, 데이터 임포트 실패가 무수하게 나고.. 한 번 잘못 데이터를 추출하면 다시 조정, 변환, 추출하는데 시간이 많이 걸린다. 그런데! Apache Drill은 그냥 RDB를 CSV랑 연결해서 조인해서 통계를 낼 수 있다. 그것도 표준 SQL을 사용하여! 예를 들어, CSV의 세 번째 컬럼이 price 이고, 물건의 판매이력을 PG사에서 CSV로 출력 받았다. 우리 DB와의 검증을 위해서는 수동으로 Import를 한 뒤에 포맷이 안맞아 잘리는 데이터가 있다면 다시 맞춰주고, 재 임포트를 수십 번, 그리고 나서 겨우 들어간 데이터를 조인하여 빠진 데이터를 분간한다. 숫자가 적다면 개발자가 개발로 처리할 수도 있지만, 건수가 하루에 300만건 짜리라면.. 한 달 온 파일은 9천만 건이다. 프로그램으로 고작 처리하는 것이 초당 500건. 거의 20만초, 에러 없이 약 56시간.. 에러가 생기면 다시 56시간.. ㅠㅡㅠ 이런게 현실이기 때문에 쿼리 말고는 방법이 없다. apache drill 의 진면목을 보자! 이번에는 좀 범용 적인 MySQL DB와 붙여 보자. . 난 이번에는 Mac에서 작업을 했기 때문에 그냥 다운 받아서 풀었음.. https://drill.apache.org/download/ 여기서 자기 OS에 맞는 버전을 받아서 설치하시길.. 압축을 풀고 나면 MySQL 커넥터를 붙여야 한다. https://dev.mysql.com/downloads/connector/j/5.1.html 여기서 다운로드 이런 커넥터 들을 붙일 때마다 콘피그를 수정해 줘야 하지만, 몇 번만...