기본 콘텐츠로 건너뛰기

메모리스토어와 인메모리 디비, memcached, redis, kvs

듣기 버전 : https://youtu.be/NmyiPYYHlNo?si=L-DDsTkBOWJhzNKR

제가 이전에 메모리 DB라고 얘기 한 것들이 있지요. 좀 알기 쉽게 퉁쳐서 불렀는데요,
이들은 크게 두 가지 종류가 있습니다.

in-memory database 라고 하는 rdbms이면서 메모리에 일부 데이터를 저장하거나 완전히 메모리만 사용하여 RDBMS의 disk io병목을 해소하고자 만든 제품이죠..

크게 Cubrid, Oracle In-Memory Option이나, SAP HANA, Altibase 등등 굉장히 많은 종류가 있습니다.

그리고 memory store라고 부르는 제품들이 있지요.

memcached, redis 가 이에 해당합니다.

인메모리 데이터베이스는 데이터베이스의 확장 같은거라 기존 RDBMS와 거의 동일하게 설치하고 표준SQL로 운용을 할 수 있습니다.

Cubrid 하니까 생각 나는 에피소드가 있네요. 모 신문사에 도입 된 것인데 클라우드 인프라로 옮기고 싶다는 요청에 분석하고 옮기는 준비를 하던 중이었지요.. 2012년 근처로 기억이 됩니다.
Cubrid는 다른 RDBMS와는 달리 브로커 라는게 중간에 있어서 RDBMS의 부하를 분산시키는 부분이 있고 메모리 영역과 디스크 영역을 혼합해서 사용하면서 브로커가 엔진 기동시 메모리에 띄워주고 하는 역할을 하는 것 같았습니다.
구조 자체를 보면 상당히 효율적이네 하고 생각을 했습니다.

VM에 올린다는 얘기는 에뮬레이트 된 HW에 OS를 올리고 그 위에 올리게 되다보니,
100%호환이 된다고 장담할 수가 없지요.
그래서 미리 환경을 만들고 cubrid를 설치해서 동일하게 구성했는데,
오히려 VM위의 환경이 더 느리더랍니다.

브로커가 무슨일인지 두세배 늦게 반응을 했지요..
큐브리드 개발사는 한국회사라서 그 회사에 연락해서 공조를 요청해서 한참을 봤는데,
결국 개발사는 두손을 들었습니다.
자기네가 봐서는 브로커가 이유를 모르겠지만 늦게 반응한다는 것이었습니다.
구조가 아무리 좋아도 기술력이 받쳐주지 않으면 이렇게 되는 것이겠지요..

여기서 포인트는,
VM은 하이퍼바이저 위에 올라가는것은 다들 아시죠? 정말 알고 있는 이야기 인가요?
아뭏든..
하이퍼 바이저 위에 올라간 VM 사이의 네트워크 통신은 다른 물리 머신과는 달리,
Hypervisor의 물리 NIC을 거쳐 내부 가상 L2의 입력 포트로 들어간 뒤 출력 포트로 나와서 VM의 가상 NIC을 거쳐 OS까지 도달합니다. 나갈 때도 이대로 4 홉을 지나가지요..
즉, 물리 머신의 경우 2홉으로 들어왔다 나갈 것을 VM위에선 8홉이 필요합니다.
만약 핸드쉐이킹 알고리즘이 비효율적이라면 이렇게 브로커가 느려질 수 있는 것이지요.
하지만 RDBMS개발사는 엔진이 메인이지 브로커의 네트워킹을 최적화 하는 드라이버 개발자가 있는게 아니니까 어쩔 수 없는 거 같습니다.

또 쓸데 없이 빠졌는데,
아뭏든 Cubrid도 국산 인메모리 디비로 나쁘지 않은 구조를 가지고 있었지만, 구조적인 문제로 현재 클라우드 환경에선 그렇게 환영 받지 못하는 것 같습니다.

이제 여러분이 쉽게 접하고 고민하고 있는 메모리 스토어인
memcached랑 redis를 봐야겠지요?

왜 얘네들은 인메모리 디비라고 안하고 메모리 스토어라고 할까요?

태생이 전혀 다른게,
메모리 스토어는 임시 메모리 저장소로 시작했기 때문에 엔진을 가지고 있다기 보다는
변수명, 값 같은 Key Value 를 저장하는 용도로 개발이 되었지요.
그래서 KVS, Key value store 라는 이름으로 시작을 했습니다.

그게 요즘처럼 JSON이란 데이터 형식이 뜨면서 적합한 데이터 저장 구조를 가지자 갑자기 떴습니다.

memcached는 MySQL의 메모리 공간 대체용으로 많이 발전한 이유는
MySQL memcached plugin 을 설치만 하면 자동으로 쿼리 캐싱을 해주기 때문에
MySQL의 성능이 비약적으로 빨라 지기 때문입니다.
Memcached를 올린 MySQL과 그냥 MySQL의 성능 차이를 보면, 안정 세팅에 비해 10배가 넘는 속도가 나오게 되지요.
그러면서 그냥 mysql에 그동안 날리던 쿼리를 그냥 날리면 된다는 장점을 가지고 있구요..

image

redis는 처음부터 kvs를이용한 데이터 캐싱을 목적으로 만들어서 RDBMS를 가리는게 아니고 독자적인 메모리 저장 형태를 가지고 있지요.
때문에 입출력은 모두 개발 언어에서 직접 처리를 해야 합니다.

image

그럼에도 불구하고 많이 사용하게 된 이유는 메모리를 사용하는 속도의 장점 때문이지요..
그 동안은 어플리케이션에서 public또는 private로 메모리 영역을 세팅하고 관리 한데다가,
session별로 또는 프로세스 별로 구분 관리를 해서 잃어버리면 큰일 나거나 누가 보면 안되는 정보는 공유 안하거나 하는 개발 쪽에 포커싱 된 데이터 관리가 언제나 관건이었습니다.

하지만 redis가 나타나면서 서버가 달라져도 데이터 관리가 편하게 되므로 아주 많이 사용하게 되고 있지요.
memcached를 사용할까 redis를 사용할까는 앞에서 설명 드렸듯이 mysql plugin을 이용하여 편리하게 쓰실 분은 memcached를, 다른 RDBMS를 사용하거나 kvs만 필요한 경우는 redis를 사용하시면 됩니다.

물론 memcached로 kvs를 못쓴다는 말은 아닙니다.
단지 그렇게 쓸 바엔 redis가 cluster등등 많은 기능이 지원 되니까 좀더 편하다는 이야기 이지요.

이제 여기서 redis를 사용하시는 분들이라면 당연히 cluster로 묶잖아요..
제가 여기서 또 언제나 태클 거는게 있습니다 .

여러분은 redis를 어느 노드에 올리시나요? WS? WAS? 아니면 별도 redis?

제 추천은 별도 redis를 추천합니다.
그리고 redis는 메모리이다보니 용량 제약이 있기 때문에 파티셔닝이 중요합니다.

ダウンロード (1)

보통 이렇게 설명하잖아요?
그런데 제가 봤던 모든 redis를 구성했던 한국 프로젝트에서 굳이 마스터 하나에 슬레이브를 서너개 만들어서 모든 데이터를 싱크 걸더라구요.. 물론! 제가 못본 곳에서는 잘 구성한 곳이 많다고 믿습니다!

이전 코너에서 제가 미니마이징한 샤딩 이야기를 했었지요?
이젠 MSA, Micro Service Architecture시대 입니다.

즉, 모든 서비스는 단위별로 쪼갤 수 있도록 설계를 해야 한다는 것입니다.
하나가 끈끈하게 엮여 있어서 떨어낼 수 없다면, 그냥 옛날 방식 개발을 그대로 하고 있다고 봐야죠..

예를 들어봅시다.

여러분이 만든 서비스에서 회원 가입 및 관리 기능이 있습니다.
디렉토리 복사만으로 그것만 떨어져 나오게 설계 되어 있나요?
그렇게 복사한 디렉토리에서 기동하면 특별한 설정 없이 바로 회원 가입 및 관리가 되나요?

여러분이 만든 상점 및 카트 기능도 똑같이 뜯어낼 수 있게 되어 있나요?

만약 그렇게 되어 있지 않다면 MSA를 생각지 않고 개발하신 겁니다.

언제나 MSA를 고민하고 단위별 개발 및 테스트를 하게 되면 Agile하게 개발이 될 수 있고,
당연히 그 단위로 개발이 되었으니 공통 모듈과 기능용 컨트롤러와 모델, 뷰만 들고 나오면 되어야지요.

Agile따로 MSA따로가 아니라 모든 것은 하나로 귀결 되어 있습니다.

제가 만든 거 볼까요?
모든 기능에 이름을 붙이고 복붙으로 추가 삭제가 가능합니다.
giip-TD011-AR1809-giip Engine Comparison

그게 된다는 이야기는 이렇게도 된다는 이야기 이죠.

giip-TD011-AR1809-giip Engine Comparison (1)

제가 만든 기능 보다 나은 오픈소스가 있다면 그냥 갈아끼우면 되는 것입니다.

잘만든 오픈소스일 수록 API등이 잘 되어 있어서 그냥 연결만 하면 끝나거든요..

또 제자랑으로 샜네요.. ^^;;

즉, MSA구조가 되어 있다면 redis역시 각 기능별 redis를 구성해야 합니다.
그리고 그에 따라 다양한 redis가 올라가구요..
그에 맞추어 부하도에 따라 해당하는 redis만 클러스터링 하면 됩니다.

이렇게 하면 최적의 redis를 구성할 수가 있지요.

메모리 스토어에 대해서 조금 언급을 했습니다.
만약 더 깊은 이야기가 필요하시다면,
다시 어떤 쪽으로 원하는지 덧글을 주시면 그에 맞추어 심화 학습으로 가겠습니다.

엔진의 구조에서 코어 기술 등등을 연구하는 것을 좋아하므로,
자료 준비는 시간이 걸릴 수 있으나 환영합니다. ^^


giip :: Control all Robots and Devices! Free inter-RPA orchestration tool! https://giipasp.azurewebsites.net/

댓글

이 블로그의 인기 게시물

Alter table 에서 modify 와 change 의 차이 :: SQL Server

두 개의 차이를 모르는 경우가 많아서 정리합니다.  modify는 필드의 속성값을 바꿀때 사용하구요.. change는 필드명을 바꿀떄 사용합니다.  alter table tbbs modify bNote varchar(2000) NULL; alter table tbbs change bNoteOrg bNoteNew varchar(2000) NULL; change에는 원래 필드와 바꾸고 싶은 필드명을 넣어서 필드명을 바꾸는 것이죠~ 더 많은 SQL Server 팁을 보려면  https://github.com/LowyShin/KnowledgeBase/tree/master/wiki/SQL-Server giip :: Control all Robots and Devices! Free inter-RPA orchestration tool! https://giipasp.azurewebsites.net/

책에서는 안 알려주는 대규모 트래픽을 위한 설계

음성 버전 :  https://www.youtube.com/watch?v=ZZlW6diG_XM 대규모 트래픽을 커버하는 첫 페이지 만드는 법..  보통 DB를 연결할 때 대규모 설계는 어떻게 하시나요?  잘 만들었다는 전제 하에 동접 3000명 이하는  어떤 DBMS를 사용해도 문제 없이 돌아갑니다.  여기서 이미 터졌다면 이 콘텐츠를 보기 전에 DB의 기초부터 보셔야 합니다.  아.. 개발 코드가 터졌다구요? 그럼 개발자를 때리셔야지요..  만약 3000명을 넘겼다면? 이제 Write/Read를 분리해서  1 CRUD + n개의 READ Replica를 만들겠죠?  보통 Read Replica는 5개가 최대라고 보시면 됩니다.  누가 연구한 자료가 있었는데...  6번째 레플리카를 만든느 순간 마스터가 되는 서버의 효율 저하 때문에  5번째에서 6번쨰로 올릴때의 성능이 급격히 줄어든다는 연구 결과가 있습니다.  때문에 Azure에서도 replica설정할 때 5대까지 밖에 설정 못하게 되어 있지요.  유저의 행동 패턴에 따라 다르긴 하지만,  1 CRUD + 5 Read Replica의 경우 동접 15000명 정도는 커버 합니다.  즉, 동접 15000명 에서 다시 터져서 저를 부르는 경우가 많지요..  이 때부터는  회원 DB, 게시판DB, 서비스DB, 과금 DB 등등 으로 성격, 서로의 연관도에 따라 나누기 시작합니다.  물리적으로 DB가 나눠지면 Join을 못하거나 Linked Table또는 LinkDB등의 연결자를 이용해서 JOIN이 되기도 합니다.  그에 따라 성능 차이가 생기지만 가장 중요한 포인트는  서로 다른 물리적 테이블의 JOIN은 인덱스를 타지 않는다!  라는 것입니다. 즉, JOIN할 테이블들을 최소한으로 만든 뒤에 JOIN을 걸지 않으면 NoSQL처럼 느려터져 죽습니다.  양이 많은 DB에서 양이 적은 테이블을 가져와서 JOIN을 해야겠지요..  이렇게 해서 동접 10만명까지 커버를 했다 칩시다.  여기서 일반적인 동접의 기준도 서비스마

BI의 궁극판! Apache Drill을 써보자!

사실 Apache Drill 은 BI(Business Intelligence)라고 부르는 것 보다는 단순 데이터 연결 엔진이다. https://drill.apache.org/ 하지만 내가 왜 극찬을 하느냐면.. DBA로서 항상 문제가 되어왔던게, 이기종 데이터의 변환이나 처리였다. 포맷을 맞추는데 엄청난 시간이 걸리고, 데이터 임포트 실패가 무수하게 나고.. 한 번 잘못 데이터를 추출하면 다시 조정, 변환, 추출하는데 시간이 많이 걸린다. 그런데! Apache Drill은 그냥 RDB를 CSV랑 연결해서 조인해서 통계를 낼 수 있다. 그것도 표준 SQL을 사용하여! 예를 들어, CSV의 세 번째 컬럼이 price 이고, 물건의 판매이력을 PG사에서 CSV로 출력 받았다. 우리 DB와의 검증을 위해서는 수동으로 Import를 한 뒤에 포맷이 안맞아 잘리는 데이터가 있다면 다시 맞춰주고, 재 임포트를 수십 번, 그리고 나서 겨우 들어간 데이터를 조인하여 빠진 데이터를 분간한다. 숫자가 적다면 개발자가 개발로 처리할 수도 있지만, 건수가 하루에 300만건 짜리라면.. 한 달 온 파일은 9천만 건이다. 프로그램으로 고작 처리하는 것이 초당 500건. 거의 20만초, 에러 없이 약 56시간.. 에러가 생기면 다시 56시간.. ㅠㅡㅠ 이런게 현실이기 때문에 쿼리 말고는 방법이 없다. apache drill 의 진면목을 보자! 이번에는 좀 범용 적인 MySQL DB와 붙여 보자. . 난 이번에는 Mac에서 작업을 했기 때문에 그냥 다운 받아서 풀었음.. https://drill.apache.org/download/ 여기서 자기 OS에 맞는 버전을 받아서 설치하시길.. 압축을 풀고 나면 MySQL 커넥터를 붙여야 한다. https://dev.mysql.com/downloads/connector/j/5.1.html 여기서 다운로드 이런 커넥터 들을 붙일 때마다 콘피그를 수정해 줘야 하지만, 몇 번만