기본 콘텐츠로 건너뛰기

라벨이 데이터사이언티스트인 게시물 표시

누구나 버리는 데이터로 인사이트를 보는 힘. Jan Chipchase

영상 버전 :  https://youtu.be/tWg7-EKBiww #테슬러 는 #자동차 한 대에서 매일 3TB정도의 #로그 #데이터 가 나온다고 합니다. 판매된 모든 차량에서 정보를 수집하여 다음 버전의 업그레이드 기반 데이터 및 유저의 #행동 #패턴 #학습에 사용되고 있다고 합니다. 2014년. #Gartner 는 #Data 는 #21세기 #원유 라고도 했습니다. 아무렇지도 않게 그냥 흘려버린 데이터 속에 사실은 돈이 숨어있을 수 있다는 사실. #데이터사이언티스트 를 꿈꾸는 이들에게 던져봅니다. 여러분들은 데이터를 어떻게 보관하고 어떻게 분석하고 있지요? 너무 방대한 데이터라 보지도 않고 버리고 있지 않나요? 누군가에게는 아주 중요한 #비즈니스 가 될 수 있습니다. 그 동안 무심코 지냈던 데이터의 #인사이트 를 가지고 나와봅니다. 예전에 서점에서 책을 보다가 바로 테드 영상을 찾아 본 것이 있습니다. 바로 얀 칩체이스(Jan chipchase)라는 사람인데요. StudioDRadiodurans라는 소비자 행동을 기반으로 전랙 컨설팅을 하는 회사를 창립한 사람입니다. 미국의 500인의 지식인에도 뽑힐 정도의 인물인데, 한국에는 아직 모르시는 분들이 많은 것 같아 소개를 해드라려 합니다. 이 사람은 제가 꿈꾸던 일을 하고 있습니다. 한국에서는 사기꾼 기질이 없으면 살아남을 수 없는 분야라 포기한 분야이지만, 앞으로 해외를 목표로 하시는 분들이라면 참고가 되지 않을까 해서 공유 합니다. 제 설명에 조금 틀린 내용이 있을 수는 있으나, 대체로 맞는 내용에 제 추측이 들어간 거일 수 있으니 양해 바랍니다. 이런 통계 정보로 여러분은 무엇을 느끼시나요? 휴대전화 가입자율 : 전국민의 82% 휴대폰 보유율 : 전국민의 10% 이 사람은 직접 보는것을 좋아 합니다. 우선은 많은 자료를 수집해서 이상한 행동 패턴을 찾는데요.. 어느날 우간다에서 휴대전화 가입율이 82%인데 휴대전화기의 보급이 10%도 되지 않은 것을 보고 이상하

데이터 사이언티스트는 일본에서!

듣기 버전 :  https://www.youtube.com/watch?v=gTfLIa7rS5I 일본에서는 데이터 사이언티스트도 꽤나 좋은 직업인데요..  한국에도 있다구요? 제가 NIA였던가요? 한국 국가에서 인터넷 기술을 관장하는 기관의 의뢰로 데이터 사이언티스트의 교육 커리큘럼을 위한 지침을 만들어 드린 적이 있는데요..  한국의 대부분의 데이터 사이언티스트 교육과정은 단순히 데이터의 정제 및 분석 뿐이더라구요..  한국과는 달리 실제로 데이터 사이언티스트는 한 두명의 사람으로 이루어지지 않고 하나의 팀으로 이루어지는 사례가 많다고 합니다.  수학과 통계 스킬의 Analyst 그리고 Hacking skill의 엔지니어. 이는 대규모 데이터의 핸들링 스킬을 가진 사람이라고 해야겠지요. 데이터 사이언티스트의 프로젝트는 상식을 벗어난 데이터량으로 처리하게 되거든요.  그리고 실무 경험 전문가. 각 데이터가 가진 속성의 진정한 의미를 모르면 아무리 뛰어난 분석가라 하더라도 의미를 찾기 어렵지요.  상식적으로 생각해도 저 세가지 스킬을 다 가지고 있는 사람 찾기 어렵지 않을까요 ? 실제로 한국의 데이터 사이언티스트를 찾는 프로젝트를 몇 번 본적이 있는데요..  단순히 데이터 주면 정제해 드리겠습니다.. 로 SI업체가 외주를 받으려고 하는데..  고객은 잘은 모르겠고 여기에 데이터가 있으니 알아서 가져가슈.. 하고..  SI업체는 데이터는 엄청 많이 받았는데 어떻게 정제 해야 하는지 몰라서 버벅이다 망한 사례를 많이 봤지요..  어디가 잘못 된 것일까요?  업무 전문가가 프로젝트 팀에 없고 정작 업무를 제일 잘 아는 고객은 알아서 해주쇼 하고, 엔지니어가 없다보니 데이터 분석가가 데이터 수집도 애먹고 전처리도 애먹다가 시간을 다 써버리고.. 결국 데이터의 의미도 모른채 이것저것 추출해보다가 프로젝트가 무산 되는 경우가 대부분이죠. 즉, 데이터 분석 전문가만 가지고 데이어 사이언티스트라고 하면서 생기는 문제 입니다. 그 동안은 수십기가 바이트의 데이터만 처리해보니 피씨