기본 콘텐츠로 건너뛰기

TiDB Migration Project(타이 디비 마이그레이션 프로젝트)

영상 버전 : https://youtu.be/M4RfSiQfVlI


TiDB 마이그레이션 프로젝트에 참여 합니다. 

아직도 100만엔 넘는 프로젝트가 하루에 수십개 씩 쏟아지고 있습니다. 
한국의 SI는 지금 시기가 완전 비수기잖아요.. 사고가 아닌 이상
이 시기에는 좋은 프로젝트는 나오지 않을 겁니다.
연초에 시작된 프로젝트에 다들 들어가서 열심히 달리고 있겠죠.. 

일본 역시 연말 연초 처럼 프로젝트가 많아지는 무렵이 있긴 하지만, 
이렇게 비수기라도 최소한 수십개 정도는 언제나 사람을 찾고 있습니다. 
물론 눈높이만 낮추면 수백개도 볼 수 있지만, 
기본 월 100만엔 위만 찾느라 이 정도인 거죠.. 

그렇게 보던 중에 
단가는 조금 적지만 DB 마이그레이션 프로젝트가 있어서 한 번 인터뷰를 봤죠. 

현재는 SQL Server를 사용하지만, 
수 년전에 TiDB이관을 검토했다가 드랍 되었다가 
다시 이관을 적극 검토하는 것으로 이야기가 되었다고 합니다. 

고객사는 연매출이 2000억엔이 넘어가면서 
대규모 유저 처리에 고심을 하고 있다고 합니다. 
그런데 연매출 2000억엔이 넘는 홈페이지 수준이… =ㅅ=;;;
이거 한국에선 있을 수 없겠죠?

물론 나름 대규모 처리를 위해 불필요한 거 다 배제하고 
최소한의 리소스로 최대 처리를 하고 있을지도 모르겠지만요..

TiDB는 도대체 뭐야?
저도 20여년 DB를 만져왔지만 처음 듣는 DB네요.. 
공식 홈페이지에서 찾아보니 
대규모 OLTP에 특화된 MySQL호환 클라우드 DB라고 하네요.. 


뭐, 기존 RDBMS보다 뛰어나다면 왜 아직도 안알려졌지? 
생각보다 문제가 있는거 아냐? 라는 걱정이 드네요..


한국의 자랑인 Tibero도 클라우드화 하면서 알수 없는 속도 저하로 포기했었는데.. 
티베로도 병목을 막기 위해 브로커라는게 부하를 효율적으로 분산해주어 고성능 처리가 된다고 선전을 했지만, CLoud의 인프라는 하나의 물리 서버에 가상Network를 통해서 데이터를 주고 받기 때문에, 
중간에 Broker가 네트워킹을 하는 순간 물리 NIC은 4배로 부하가 올라가는 
클라우드 특유의 구조를 그 때 당시 
티베로에선 인지할 수 있는 엔지니어가 없어서 해결을 못했었죠.. 
지금은 그 정도의 클라우드와 레거시 인프라에 정통한 실력자가 들어왔는지 모르겠습니다. 

아뭏든, 
TiDB역시 알 수없는 불안감이 있지만, 


AWS DMS를 서포트 하는걸 검증했다고 하니, 
그걸 믿고 퍼포먼스 이슈는 최대한 잡아주겠지만, 
엔진이 가지고 있는 단점을 파악하지 못했기 때문에 
엔진 결함에 의한 성능 저하만큼은 책임질 수 없다고 이야기 하고 
받아들이기로 했습니다. 

아마 많은 사람들이 지원을 해서 검토하는 중이었던 거 같은데요.. 
기본적으로 DB마이그레이션 경험자가 거의 없는데다가, 
저처럼 ORACLE이나 SQL Server, MySQL등 다양한 DB마이그레이션 경험에
클라우드화나 HA구성, DMS, CDP같은 연속데이터 복사 기능을 이용한 점진적 이동 등의 경험자가 
거의 없기 때문에 고객 쪽에선 선택의 여지가 없었던 것 같습니다. 
이런 경험이나 이전후의 DBMS 및 인프라 환경에 맞는 튜닝 기법이 달라진다는 경험담을 
몇 개 이야기 해주니까 바로 채택이 되었네요..  

가격도 좀더 조정해서 원래 단가가 80~85만엔 짜리였던 것이  
월90만엔 + 소비세 해서 월99만엔으로 조정 받았구요.. 
일은 좀 많을 것 같지만, 
데이터 이관 작업은 탈도 많지만 재미가 있어서 수락을 하게 되었습니다. 

데이터이관은 잘못하면 데이터 복구 불능 상태에 빠질 수도 있어서 
쉽게 받아줄 수 없는 일이지만, 
그런 부분은 책임을 지지 않아도 된다면 
충분히 재미 있는 프로젝트지요.. 

실제로 제가 담당했었던 모 게임 DB이관 작업에 
SI업체에 의뢰하니 일본에서는 3억엔을 불렀으니.. 
월 99만엔이라고 해도 껌값이겠지요.. 

아뭏은 이관 하다가 재미난 내용들이 있으면 한 번 언급해 보기로 하겠습니다. 
이 프로젝트에서 궁금한 내용은 질문 주시면 대답해 드릴께요~




giip :: Control all Robots and Devices! Free inter-RPA orchestration tool! https://giipasp.azurewebsites.net/

댓글

이 블로그의 인기 게시물

Alter table 에서 modify 와 change 의 차이 :: SQL Server

두 개의 차이를 모르는 경우가 많아서 정리합니다.  modify는 필드의 속성값을 바꿀때 사용하구요.. change는 필드명을 바꿀떄 사용합니다.  alter table tbbs modify bNote varchar(2000) NULL; alter table tbbs change bNoteOrg bNoteNew varchar(2000) NULL; change에는 원래 필드와 바꾸고 싶은 필드명을 넣어서 필드명을 바꾸는 것이죠~ 더 많은 SQL Server 팁을 보려면  https://github.com/LowyShin/KnowledgeBase/tree/master/wiki/SQL-Server giip :: Control all Robots and Devices! Free inter-RPA orchestration tool! https://giipasp.azurewebsites.net/

책에서는 안 알려주는 대규모 트래픽을 위한 설계

음성 버전 :  https://www.youtube.com/watch?v=ZZlW6diG_XM 대규모 트래픽을 커버하는 첫 페이지 만드는 법..  보통 DB를 연결할 때 대규모 설계는 어떻게 하시나요?  잘 만들었다는 전제 하에 동접 3000명 이하는  어떤 DBMS를 사용해도 문제 없이 돌아갑니다.  여기서 이미 터졌다면 이 콘텐츠를 보기 전에 DB의 기초부터 보셔야 합니다.  아.. 개발 코드가 터졌다구요? 그럼 개발자를 때리셔야지요..  만약 3000명을 넘겼다면? 이제 Write/Read를 분리해서  1 CRUD + n개의 READ Replica를 만들겠죠?  보통 Read Replica는 5개가 최대라고 보시면 됩니다.  누가 연구한 자료가 있었는데...  6번째 레플리카를 만든느 순간 마스터가 되는 서버의 효율 저하 때문에  5번째에서 6번쨰로 올릴때의 성능이 급격히 줄어든다는 연구 결과가 있습니다.  때문에 Azure에서도 replica설정할 때 5대까지 밖에 설정 못하게 되어 있지요.  유저의 행동 패턴에 따라 다르긴 하지만,  1 CRUD + 5 Read Replica의 경우 동접 15000명 정도는 커버 합니다.  즉, 동접 15000명 에서 다시 터져서 저를 부르는 경우가 많지요..  이 때부터는  회원 DB, 게시판DB, 서비스DB, 과금 DB 등등 으로 성격, 서로의 연관도에 따라 나누기 시작합니다.  물리적으로 DB가 나눠지면 Join을 못하거나 Linked Table또는 LinkDB등의 연결자를 이용해서 JOIN이 되기도 합니다.  그에 따라 성능 차이가 생기지만 가장 중요한 포인트는  서로 다른 물리적 테이블의 JOIN은 인덱스를 타지 않는다!  라는 것입니다. 즉, JOIN할 테이블들을 최소한으로 만든 뒤에 JOIN을 걸지 않으면 NoSQ...

BI의 궁극판! Apache Drill을 써보자!

사실 Apache Drill 은 BI(Business Intelligence)라고 부르는 것 보다는 단순 데이터 연결 엔진이다. https://drill.apache.org/ 하지만 내가 왜 극찬을 하느냐면.. DBA로서 항상 문제가 되어왔던게, 이기종 데이터의 변환이나 처리였다. 포맷을 맞추는데 엄청난 시간이 걸리고, 데이터 임포트 실패가 무수하게 나고.. 한 번 잘못 데이터를 추출하면 다시 조정, 변환, 추출하는데 시간이 많이 걸린다. 그런데! Apache Drill은 그냥 RDB를 CSV랑 연결해서 조인해서 통계를 낼 수 있다. 그것도 표준 SQL을 사용하여! 예를 들어, CSV의 세 번째 컬럼이 price 이고, 물건의 판매이력을 PG사에서 CSV로 출력 받았다. 우리 DB와의 검증을 위해서는 수동으로 Import를 한 뒤에 포맷이 안맞아 잘리는 데이터가 있다면 다시 맞춰주고, 재 임포트를 수십 번, 그리고 나서 겨우 들어간 데이터를 조인하여 빠진 데이터를 분간한다. 숫자가 적다면 개발자가 개발로 처리할 수도 있지만, 건수가 하루에 300만건 짜리라면.. 한 달 온 파일은 9천만 건이다. 프로그램으로 고작 처리하는 것이 초당 500건. 거의 20만초, 에러 없이 약 56시간.. 에러가 생기면 다시 56시간.. ㅠㅡㅠ 이런게 현실이기 때문에 쿼리 말고는 방법이 없다. apache drill 의 진면목을 보자! 이번에는 좀 범용 적인 MySQL DB와 붙여 보자. . 난 이번에는 Mac에서 작업을 했기 때문에 그냥 다운 받아서 풀었음.. https://drill.apache.org/download/ 여기서 자기 OS에 맞는 버전을 받아서 설치하시길.. 압축을 풀고 나면 MySQL 커넥터를 붙여야 한다. https://dev.mysql.com/downloads/connector/j/5.1.html 여기서 다운로드 이런 커넥터 들을 붙일 때마다 콘피그를 수정해 줘야 하지만, 몇 번만...