기본 콘텐츠로 건너뛰기

데이터 사이언티스트는 일본에서!


일본에서는 데이터 사이언티스트도 꽤나 좋은 직업인데요.. 

한국에도 있다구요?

제가 NIA였던가요? 한국 국가에서 인터넷 기술을 관장하는 기관의 의뢰로 데이터 사이언티스트의 교육 커리큘럼을 위한 지침을 만들어 드린 적이 있는데요.. 

한국의 대부분의 데이터 사이언티스트 교육과정은 단순히 데이터의 정제 및 분석 뿐이더라구요.. 




한국과는 달리 실제로 데이터 사이언티스트는 한 두명의 사람으로 이루어지지 않고 하나의 팀으로 이루어지는 사례가 많다고 합니다. 

수학과 통계 스킬의 Analyst

그리고 Hacking skill의 엔지니어. 이는 대규모 데이터의 핸들링 스킬을 가진 사람이라고 해야겠지요. 데이터 사이언티스트의 프로젝트는 상식을 벗어난 데이터량으로 처리하게 되거든요. 

그리고 실무 경험 전문가. 각 데이터가 가진 속성의 진정한 의미를 모르면 아무리 뛰어난 분석가라 하더라도 의미를 찾기 어렵지요. 

상식적으로 생각해도 저 세가지 스킬을 다 가지고 있는 사람 찾기 어렵지 않을까요 ?

실제로 한국의 데이터 사이언티스트를 찾는 프로젝트를 몇 번 본적이 있는데요.. 

단순히 데이터 주면 정제해 드리겠습니다.. 로 SI업체가 외주를 받으려고 하는데.. 

고객은 잘은 모르겠고 여기에 데이터가 있으니 알아서 가져가슈.. 하고.. 

SI업체는 데이터는 엄청 많이 받았는데 어떻게 정제 해야 하는지 몰라서 버벅이다 망한 사례를 많이 봤지요.. 

어디가 잘못 된 것일까요? 


업무 전문가가 프로젝트 팀에 없고 정작 업무를 제일 잘 아는 고객은 알아서 해주쇼 하고,

엔지니어가 없다보니 데이터 분석가가 데이터 수집도 애먹고 전처리도 애먹다가 시간을 다 써버리고..

결국 데이터의 의미도 모른채 이것저것 추출해보다가 프로젝트가 무산 되는 경우가 대부분이죠.

즉, 데이터 분석 전문가만 가지고 데이어 사이언티스트라고 하면서 생기는 문제 입니다.


그 동안은 수십기가 바이트의 데이터만 처리해보니 피씨로 복사도 금방 되고 여러가지 처리도 시험해보면서 자신이 붙었을 겁니다.

S생명을 예로 들어보죠.

32TB의 고객 데이터 및 영업 이력 데이터에 전국 주소 정보 및 부동산 시세 정보를 넣고 지금까지의 보험 가입 이력 및 담당자 정보를 매핑합니다.

요즘은 DW에 쿼리 날리는 법도 배우지 못한 교육 과정만 거치고 나온 데이터 사이언티스트가 많아서 그냥 익스포트 한 뒤에 R이나 파이썬으로 어떻게 지지고 볶으려고 합니다.

이 두 언어의 특징은 모든 대상 데이터를 메모리에 넣고 처리를 해야 하므로 메모리가 대상 용량 + 연산 용량 + 결과 용량만큼이 필요합니다.

어떤 머신이 45TB이상의 메모리를 가지고 있을까요?
그러니 올리면 터지고 올리면 터지고를 반복하다가 disk io만으로 해보려다가 포기하게 되는 것이지요.

Disk IO는시퀀셜 리드로 빨리 나온다 하더라도 6Gbps입니다.6TB 데이터 읽는데만 1000초.. 이런 디스크를 disk bench에서 돌리면 겨우 40MB/s 정도 나오죠..

이걸로 1일 내내 돌리면 약 3테라.. 10일 돌리면 간신히 30테라 읽어내지요.. 
이게 45TB정도의 메모리가 있는 하드웨어가 있을 때의 이야기 이지만, 
요즘 아무리 성능이 좋은 PC라고 해도 1TB짜리가 아직 없는거 같은데.. 

이게 바로 현실이지요.. 

제가 설계했던  모 서비스는 76TB의 데이터를 저장 및 정제 하기 위해 1.76PB 의 시스템을 만들고 분산해서 64GB단위로 끊어서 머신러닝 하는 512GB메모리를 가진 배치 서버 4대가 각자 머신러닝 후 추가 러닝을 하는 방법으로 진행을 했지요. 
그렇게 해서 만든 160억원짜리 시스템으로 1~2개월씩 돌리는데.. 

인프라 전문가가 없다면 데이터 로드에서부터 이런 사태에 빠지구요.. 

만약 로드를 어떻게든 했다 치면 그 뒤에 업무 전문가가 손을 놓으면 그냥 정처없이 돌리다가 끝나게 되지요. 

나중에 나온 결과를 고객이 보고서 피식 웃고 버리면 더 씁쓸하겠지요.. 

성공하는 데이터사이언티스트가 되려면 먼저 조직을 잘 갖춘 곳에서 제대로 데이터 분석 프로젝트를 해보신 분들과 같이 처음엔 일을 해보시는 것을 추천합니다.

연습할 곳은 kaggle도 있지만, 일본에는 각 지자체나 통계청, 그리고 여러 기업들이 콤페로 많은 머신러닝 대회를 열고 있거든요.. 이것만 잘 참여해서 수상하면 쉽게 수백만엔은 벌 수도 있는 거 같아요.. 



해보고 싶은 분들의 많은 참여를... 
어디서 하는지는 직접 찾아보셔용~~ ^^




giip :: Control all Robots and Devices! Free inter-RPA orchestration tool! https://giipasp.azurewebsites.net/

댓글

이 블로그의 인기 게시물

Alter table 에서 modify 와 change 의 차이 :: SQL Server

두 개의 차이를 모르는 경우가 많아서 정리합니다.  modify는 필드의 속성값을 바꿀때 사용하구요.. change는 필드명을 바꿀떄 사용합니다.  alter table tbbs modify bNote varchar(2000) NULL; alter table tbbs change bNoteOrg bNoteNew varchar(2000) NULL; change에는 원래 필드와 바꾸고 싶은 필드명을 넣어서 필드명을 바꾸는 것이죠~ 더 많은 SQL Server 팁을 보려면  https://github.com/LowyShin/KnowledgeBase/tree/master/wiki/SQL-Server giip :: Control all Robots and Devices! Free inter-RPA orchestration tool! https://giipasp.azurewebsites.net/

책에서는 안 알려주는 대규모 트래픽을 위한 설계

음성 버전 :  https://www.youtube.com/watch?v=ZZlW6diG_XM 대규모 트래픽을 커버하는 첫 페이지 만드는 법..  보통 DB를 연결할 때 대규모 설계는 어떻게 하시나요?  잘 만들었다는 전제 하에 동접 3000명 이하는  어떤 DBMS를 사용해도 문제 없이 돌아갑니다.  여기서 이미 터졌다면 이 콘텐츠를 보기 전에 DB의 기초부터 보셔야 합니다.  아.. 개발 코드가 터졌다구요? 그럼 개발자를 때리셔야지요..  만약 3000명을 넘겼다면? 이제 Write/Read를 분리해서  1 CRUD + n개의 READ Replica를 만들겠죠?  보통 Read Replica는 5개가 최대라고 보시면 됩니다.  누가 연구한 자료가 있었는데...  6번째 레플리카를 만든느 순간 마스터가 되는 서버의 효율 저하 때문에  5번째에서 6번쨰로 올릴때의 성능이 급격히 줄어든다는 연구 결과가 있습니다.  때문에 Azure에서도 replica설정할 때 5대까지 밖에 설정 못하게 되어 있지요.  유저의 행동 패턴에 따라 다르긴 하지만,  1 CRUD + 5 Read Replica의 경우 동접 15000명 정도는 커버 합니다.  즉, 동접 15000명 에서 다시 터져서 저를 부르는 경우가 많지요..  이 때부터는  회원 DB, 게시판DB, 서비스DB, 과금 DB 등등 으로 성격, 서로의 연관도에 따라 나누기 시작합니다.  물리적으로 DB가 나눠지면 Join을 못하거나 Linked Table또는 LinkDB등의 연결자를 이용해서 JOIN이 되기도 합니다.  그에 따라 성능 차이가 생기지만 가장 중요한 포인트는  서로 다른 물리적 테이블의 JOIN은 인덱스를 타지 않는다!  라는 것입니다. 즉, JOIN할 테이블들을 최소한으로 만든 뒤에 JOIN을 걸지 않으면 NoSQ...

BI의 궁극판! Apache Drill을 써보자!

사실 Apache Drill 은 BI(Business Intelligence)라고 부르는 것 보다는 단순 데이터 연결 엔진이다. https://drill.apache.org/ 하지만 내가 왜 극찬을 하느냐면.. DBA로서 항상 문제가 되어왔던게, 이기종 데이터의 변환이나 처리였다. 포맷을 맞추는데 엄청난 시간이 걸리고, 데이터 임포트 실패가 무수하게 나고.. 한 번 잘못 데이터를 추출하면 다시 조정, 변환, 추출하는데 시간이 많이 걸린다. 그런데! Apache Drill은 그냥 RDB를 CSV랑 연결해서 조인해서 통계를 낼 수 있다. 그것도 표준 SQL을 사용하여! 예를 들어, CSV의 세 번째 컬럼이 price 이고, 물건의 판매이력을 PG사에서 CSV로 출력 받았다. 우리 DB와의 검증을 위해서는 수동으로 Import를 한 뒤에 포맷이 안맞아 잘리는 데이터가 있다면 다시 맞춰주고, 재 임포트를 수십 번, 그리고 나서 겨우 들어간 데이터를 조인하여 빠진 데이터를 분간한다. 숫자가 적다면 개발자가 개발로 처리할 수도 있지만, 건수가 하루에 300만건 짜리라면.. 한 달 온 파일은 9천만 건이다. 프로그램으로 고작 처리하는 것이 초당 500건. 거의 20만초, 에러 없이 약 56시간.. 에러가 생기면 다시 56시간.. ㅠㅡㅠ 이런게 현실이기 때문에 쿼리 말고는 방법이 없다. apache drill 의 진면목을 보자! 이번에는 좀 범용 적인 MySQL DB와 붙여 보자. . 난 이번에는 Mac에서 작업을 했기 때문에 그냥 다운 받아서 풀었음.. https://drill.apache.org/download/ 여기서 자기 OS에 맞는 버전을 받아서 설치하시길.. 압축을 풀고 나면 MySQL 커넥터를 붙여야 한다. https://dev.mysql.com/downloads/connector/j/5.1.html 여기서 다운로드 이런 커넥터 들을 붙일 때마다 콘피그를 수정해 줘야 하지만, 몇 번만...