기본 콘텐츠로 건너뛰기

누구나 버리는 데이터로 인사이트를 보는 힘. Jan Chipchase

영상 버전 : https://youtu.be/tWg7-EKBiww




#테슬러#자동차 한 대에서 매일 3TB정도의 #로그 #데이터 가 나온다고 합니다. 판매된 모든 차량에서 정보를 수집하여 다음 버전의 업그레이드 기반 데이터 및 유저의 #행동 #패턴 #학습에 사용되고 있다고 합니다. 2014년. #Gartner#Data#21세기 #원유 라고도 했습니다. 아무렇지도 않게 그냥 흘려버린 데이터 속에 사실은 돈이 숨어있을 수 있다는 사실. #데이터사이언티스트 를 꿈꾸는 이들에게 던져봅니다. 여러분들은 데이터를 어떻게 보관하고 어떻게 분석하고 있지요? 너무 방대한 데이터라 보지도 않고 버리고 있지 않나요? 누군가에게는 아주 중요한 #비즈니스 가 될 수 있습니다. 그 동안 무심코 지냈던 데이터의 #인사이트 를 가지고 나와봅니다.


예전에 서점에서 책을 보다가 바로 테드 영상을 찾아 본 것이 있습니다.
바로 얀 칩체이스(Jan chipchase)라는 사람인데요.
StudioDRadiodurans라는 소비자 행동을 기반으로 전랙 컨설팅을 하는 회사를 창립한 사람입니다.
미국의 500인의 지식인에도 뽑힐 정도의 인물인데,
한국에는 아직 모르시는 분들이 많은 것 같아 소개를 해드라려 합니다.

이 사람은 제가 꿈꾸던 일을 하고 있습니다.
한국에서는 사기꾼 기질이 없으면 살아남을 수 없는 분야라 포기한 분야이지만,
앞으로 해외를 목표로 하시는 분들이라면 참고가 되지 않을까 해서 공유 합니다.

제 설명에 조금 틀린 내용이 있을 수는 있으나,
대체로 맞는 내용에 제 추측이 들어간 거일 수 있으니 양해 바랍니다.

이런 통계 정보로 여러분은 무엇을 느끼시나요?

휴대전화 가입자율 : 전국민의 82%
휴대폰 보유율 : 전국민의 10%


이 사람은 직접 보는것을 좋아 합니다.
우선은 많은 자료를 수집해서 이상한 행동 패턴을 찾는데요..
어느날 우간다에서 휴대전화 가입율이 82%인데
휴대전화기의 보급이 10%도 되지 않은 것을 보고 이상하다 생각하여
우간다로 카메라 하나 들고 달려갔습니다.

2000년대 당시 우간다는 아직 부족국가로 여러 부족이 따로 살면서 자급자족을 했지요.
문명은 발전하다 보니 도시에 가서 돈을 벌어 문명의 제품들을 가지고 오는 사람들이 생겼습니다.
2주를 걸어서 도시에 가서 한 달을 일해서 번 돈을 들고 부락에 돌아오면
그걸로 시장에 가서 물건을 사지요..
그러면 한 달 일했지만 왕복하느라 한 달을 써야 합니다.

그래서 누구가 꾀를 냈지요.
우선 처음엔 똑같이 합니다.
처음 돌아올 때, 프리페이드 유심을 하나 사와서 가족에게 주고
다시 2주에 걸쳐 도심으로 갑니다.
그 다음에는 한 달이 지나도 젊은 남자는 돌어오지 않습니다.
젊은 남자는 집에 건넨 유심번호를 알려주고 충전을 해달라 합니다.
월말이 되어 시장에 가면 유심을 팔고있는 사람이 있습니다.
부인은 유심을 건네면서 환불 해달라고 하죠.
그러면 가게 주인은 체크해 보고 10~20% 의 수수료를 떼고 현금을 줍니다.
바로 모바일 송금이 된 겁니다.

이 동네 사럼들은 휴대폰을 sente라고 부릅니다. 보내다 라는 뜻이러고 하네요.
이걸 보고 비즈니스 모델을 만들어 통산사에 큰 금약으로 팔았다고 합니다.

그 뒤 2009년에 세계 최초 모바일 송금 서비스가 시작 되었고
카카오는 2014년에 처음으로 보바일 송금 서비스가 시작된 것이죠.

이렇게 사람들은 쉽게 지나갈 수 있는 숫자에 위화감을 느끼고
철저하게 조사하여
바즈니스 모델을 만들어
돈으로 만드는 기술이
제가 꿈꿔왔지만 실력 부족으로 아직도 못하는 비즈니스 이지만,
얀씨는 이미 2000년경에 하고 있던 것이지요.

세계로 시야를 넓히면
저는 얼마나 우물안 개구리였던가를 느끼게 됩니다.
그리고 그런 충격적인 일화를 공유 함으로
보다 나은 후세가 나오기를 바라고 있습니다.

엄청난 속도로 발전하는 한국.
하지만 과학으로 노벨상 0명.
모든 원천기술은 해외에 로열티를 주는 상황.
언젠가는 로열티 만으로 먹고사는 나라가 되길 바랍니다.


giip :: Control all Robots and Devices! Free inter-RPA orchestration tool! https://giipasp.azurewebsites.net/

댓글

이 블로그의 인기 게시물

Alter table 에서 modify 와 change 의 차이 :: SQL Server

두 개의 차이를 모르는 경우가 많아서 정리합니다.  modify는 필드의 속성값을 바꿀때 사용하구요.. change는 필드명을 바꿀떄 사용합니다.  alter table tbbs modify bNote varchar(2000) NULL; alter table tbbs change bNoteOrg bNoteNew varchar(2000) NULL; change에는 원래 필드와 바꾸고 싶은 필드명을 넣어서 필드명을 바꾸는 것이죠~ 더 많은 SQL Server 팁을 보려면  https://github.com/LowyShin/KnowledgeBase/tree/master/wiki/SQL-Server giip :: Control all Robots and Devices! Free inter-RPA orchestration tool! https://giipasp.azurewebsites.net/

책에서는 안 알려주는 대규모 트래픽을 위한 설계

음성 버전 :  https://www.youtube.com/watch?v=ZZlW6diG_XM 대규모 트래픽을 커버하는 첫 페이지 만드는 법..  보통 DB를 연결할 때 대규모 설계는 어떻게 하시나요?  잘 만들었다는 전제 하에 동접 3000명 이하는  어떤 DBMS를 사용해도 문제 없이 돌아갑니다.  여기서 이미 터졌다면 이 콘텐츠를 보기 전에 DB의 기초부터 보셔야 합니다.  아.. 개발 코드가 터졌다구요? 그럼 개발자를 때리셔야지요..  만약 3000명을 넘겼다면? 이제 Write/Read를 분리해서  1 CRUD + n개의 READ Replica를 만들겠죠?  보통 Read Replica는 5개가 최대라고 보시면 됩니다.  누가 연구한 자료가 있었는데...  6번째 레플리카를 만든느 순간 마스터가 되는 서버의 효율 저하 때문에  5번째에서 6번쨰로 올릴때의 성능이 급격히 줄어든다는 연구 결과가 있습니다.  때문에 Azure에서도 replica설정할 때 5대까지 밖에 설정 못하게 되어 있지요.  유저의 행동 패턴에 따라 다르긴 하지만,  1 CRUD + 5 Read Replica의 경우 동접 15000명 정도는 커버 합니다.  즉, 동접 15000명 에서 다시 터져서 저를 부르는 경우가 많지요..  이 때부터는  회원 DB, 게시판DB, 서비스DB, 과금 DB 등등 으로 성격, 서로의 연관도에 따라 나누기 시작합니다.  물리적으로 DB가 나눠지면 Join을 못하거나 Linked Table또는 LinkDB등의 연결자를 이용해서 JOIN이 되기도 합니다.  그에 따라 성능 차이가 생기지만 가장 중요한 포인트는  서로 다른 물리적 테이블의 JOIN은 인덱스를 타지 않는다!  라는 것입니다. 즉, JOIN할 테이블들을 최소한으로 만든 뒤에 JOIN을 걸지 않으면 NoSQ...

BI의 궁극판! Apache Drill을 써보자!

사실 Apache Drill 은 BI(Business Intelligence)라고 부르는 것 보다는 단순 데이터 연결 엔진이다. https://drill.apache.org/ 하지만 내가 왜 극찬을 하느냐면.. DBA로서 항상 문제가 되어왔던게, 이기종 데이터의 변환이나 처리였다. 포맷을 맞추는데 엄청난 시간이 걸리고, 데이터 임포트 실패가 무수하게 나고.. 한 번 잘못 데이터를 추출하면 다시 조정, 변환, 추출하는데 시간이 많이 걸린다. 그런데! Apache Drill은 그냥 RDB를 CSV랑 연결해서 조인해서 통계를 낼 수 있다. 그것도 표준 SQL을 사용하여! 예를 들어, CSV의 세 번째 컬럼이 price 이고, 물건의 판매이력을 PG사에서 CSV로 출력 받았다. 우리 DB와의 검증을 위해서는 수동으로 Import를 한 뒤에 포맷이 안맞아 잘리는 데이터가 있다면 다시 맞춰주고, 재 임포트를 수십 번, 그리고 나서 겨우 들어간 데이터를 조인하여 빠진 데이터를 분간한다. 숫자가 적다면 개발자가 개발로 처리할 수도 있지만, 건수가 하루에 300만건 짜리라면.. 한 달 온 파일은 9천만 건이다. 프로그램으로 고작 처리하는 것이 초당 500건. 거의 20만초, 에러 없이 약 56시간.. 에러가 생기면 다시 56시간.. ㅠㅡㅠ 이런게 현실이기 때문에 쿼리 말고는 방법이 없다. apache drill 의 진면목을 보자! 이번에는 좀 범용 적인 MySQL DB와 붙여 보자. . 난 이번에는 Mac에서 작업을 했기 때문에 그냥 다운 받아서 풀었음.. https://drill.apache.org/download/ 여기서 자기 OS에 맞는 버전을 받아서 설치하시길.. 압축을 풀고 나면 MySQL 커넥터를 붙여야 한다. https://dev.mysql.com/downloads/connector/j/5.1.html 여기서 다운로드 이런 커넥터 들을 붙일 때마다 콘피그를 수정해 줘야 하지만, 몇 번만...