기본 콘텐츠로 건너뛰기

데이터 사이언티스트는 일본에서!


일본에서는 데이터 사이언티스트도 꽤나 좋은 직업인데요.. 

한국에도 있다구요?

제가 NIA였던가요? 한국 국가에서 인터넷 기술을 관장하는 기관의 의뢰로 데이터 사이언티스트의 교육 커리큘럼을 위한 지침을 만들어 드린 적이 있는데요.. 

한국의 대부분의 데이터 사이언티스트 교육과정은 단순히 데이터의 정제 및 분석 뿐이더라구요.. 




한국과는 달리 실제로 데이터 사이언티스트는 한 두명의 사람으로 이루어지지 않고 하나의 팀으로 이루어지는 사례가 많다고 합니다. 

수학과 통계 스킬의 Analyst

그리고 Hacking skill의 엔지니어. 이는 대규모 데이터의 핸들링 스킬을 가진 사람이라고 해야겠지요. 데이터 사이언티스트의 프로젝트는 상식을 벗어난 데이터량으로 처리하게 되거든요. 

그리고 실무 경험 전문가. 각 데이터가 가진 속성의 진정한 의미를 모르면 아무리 뛰어난 분석가라 하더라도 의미를 찾기 어렵지요. 

상식적으로 생각해도 저 세가지 스킬을 다 가지고 있는 사람 찾기 어렵지 않을까요 ?

실제로 한국의 데이터 사이언티스트를 찾는 프로젝트를 몇 번 본적이 있는데요.. 

단순히 데이터 주면 정제해 드리겠습니다.. 로 SI업체가 외주를 받으려고 하는데.. 

고객은 잘은 모르겠고 여기에 데이터가 있으니 알아서 가져가슈.. 하고.. 

SI업체는 데이터는 엄청 많이 받았는데 어떻게 정제 해야 하는지 몰라서 버벅이다 망한 사례를 많이 봤지요.. 

어디가 잘못 된 것일까요? 


업무 전문가가 프로젝트 팀에 없고 정작 업무를 제일 잘 아는 고객은 알아서 해주쇼 하고,

엔지니어가 없다보니 데이터 분석가가 데이터 수집도 애먹고 전처리도 애먹다가 시간을 다 써버리고..

결국 데이터의 의미도 모른채 이것저것 추출해보다가 프로젝트가 무산 되는 경우가 대부분이죠.

즉, 데이터 분석 전문가만 가지고 데이어 사이언티스트라고 하면서 생기는 문제 입니다.


그 동안은 수십기가 바이트의 데이터만 처리해보니 피씨로 복사도 금방 되고 여러가지 처리도 시험해보면서 자신이 붙었을 겁니다.

S생명을 예로 들어보죠.

32TB의 고객 데이터 및 영업 이력 데이터에 전국 주소 정보 및 부동산 시세 정보를 넣고 지금까지의 보험 가입 이력 및 담당자 정보를 매핑합니다.

요즘은 DW에 쿼리 날리는 법도 배우지 못한 교육 과정만 거치고 나온 데이터 사이언티스트가 많아서 그냥 익스포트 한 뒤에 R이나 파이썬으로 어떻게 지지고 볶으려고 합니다.

이 두 언어의 특징은 모든 대상 데이터를 메모리에 넣고 처리를 해야 하므로 메모리가 대상 용량 + 연산 용량 + 결과 용량만큼이 필요합니다.

어떤 머신이 45TB이상의 메모리를 가지고 있을까요?
그러니 올리면 터지고 올리면 터지고를 반복하다가 disk io만으로 해보려다가 포기하게 되는 것이지요.

Disk IO는시퀀셜 리드로 빨리 나온다 하더라도 6Gbps입니다.6TB 데이터 읽는데만 1000초.. 이런 디스크를 disk bench에서 돌리면 겨우 40MB/s 정도 나오죠..

이걸로 1일 내내 돌리면 약 3테라.. 10일 돌리면 간신히 30테라 읽어내지요.. 
이게 45TB정도의 메모리가 있는 하드웨어가 있을 때의 이야기 이지만, 
요즘 아무리 성능이 좋은 PC라고 해도 1TB짜리가 아직 없는거 같은데.. 

이게 바로 현실이지요.. 

제가 설계했던  모 서비스는 76TB의 데이터를 저장 및 정제 하기 위해 1.76PB 의 시스템을 만들고 분산해서 64GB단위로 끊어서 머신러닝 하는 512GB메모리를 가진 배치 서버 4대가 각자 머신러닝 후 추가 러닝을 하는 방법으로 진행을 했지요. 
그렇게 해서 만든 160억원짜리 시스템으로 1~2개월씩 돌리는데.. 

인프라 전문가가 없다면 데이터 로드에서부터 이런 사태에 빠지구요.. 

만약 로드를 어떻게든 했다 치면 그 뒤에 업무 전문가가 손을 놓으면 그냥 정처없이 돌리다가 끝나게 되지요. 

나중에 나온 결과를 고객이 보고서 피식 웃고 버리면 더 씁쓸하겠지요.. 

성공하는 데이터사이언티스트가 되려면 먼저 조직을 잘 갖춘 곳에서 제대로 데이터 분석 프로젝트를 해보신 분들과 같이 처음엔 일을 해보시는 것을 추천합니다.

연습할 곳은 kaggle도 있지만, 일본에는 각 지자체나 통계청, 그리고 여러 기업들이 콤페로 많은 머신러닝 대회를 열고 있거든요.. 이것만 잘 참여해서 수상하면 쉽게 수백만엔은 벌 수도 있는 거 같아요.. 



해보고 싶은 분들의 많은 참여를... 
어디서 하는지는 직접 찾아보셔용~~ ^^




giip :: Control all Robots and Devices! Free inter-RPA orchestration tool! https://giipasp.azurewebsites.net/

댓글

이 블로그의 인기 게시물

일본 두바퀴 여행(바이크 편)

영상버전 : https://youtu.be/P3vC17iVu1I 이번에는 일본으로 넘어와서 일본 종주하시는 바이커들을 위한 정보입니다.  일본에서의 2륜의 정의가 면허와 도로교통법이 조금씩 다르다고 합니다.  그래도 그렇게 크게 신경쓸 건 없으니 딱 세 종류로 말씀 드릴께요.  50cc는 원동기 1종이라고 하여 3차선 이상 교차로에서 우회전, 한국에선 좌회전 같이 크게 도는 것이지요..  이게 불가능합니다.  직진 신호로 넘어간 뒤에 방향을 틀고 다시 직진으로 두번 꺾어 가야 하구요,  두 명이 타면 안됩니다.  그리고 맨 가장자리 길로만 가야해서 애매하게 끝에서 두 번째 차선만 직진인 곳들이 있어서 난감할 때가 있지요. 그런데에 직진하면 걸리는 곳이 있다고 합니다. 어느 정도까지 걸리고 안걸리고는 정확히는 모르지만,  직좌 마크가 아닌 좌회전 마크만 있는 곳이 은근히 많으니 조심해야 하겠더라구요.  최고 시속도 30km를 넘기면 안되어 천천히 달려야 합니다.  아뭏든 제약이 엄청나게 많으므로 60cc이상을 가져오시거나 렌트 하시는 것을 추천하구요,  125cc미만은 겐츠키 2종이라고 하여 두 명이 타도 되고, 3차선 이상에서 우회전이 가능합니다.  상당히 제약이 풀리는 대신 고속도로를 탈 수가 없지요.  만약 국도로 천천히 올라오신다면 125cc미만으로도 충분합니다.  실제로 일본인 바이커들 중에서도 국도 종주하는 모습을 많이 볼 수 있구요,  도심에 가면 125cc미만까지만 주차 가능한 바이크 주차장도 꽤 많기 때문에 도심용으로는 메리트가 큰 것 같습니다.  뭐, 125cc대는 곳에 큰 바이크를 대는 경우도 자주 보는데, 아무도 뭐라 안하긴 합니다.  그도 그럴 것이, 일본의 바이크 등록대수는 1031만대 인데도 바이크 전용 주차장은 턱없이 부족하다고 합니다. 바이크 주차장이 저렴하기 때문에 웬만한 ...

[Classic ASP] Cookie가 삭제 안되는 문제

만든 쿠키가 삭제가 계속 안되서 여기저기 삽질을 했다. 모든 쿠키를 삭제하는 함수도 만들었다. Function CookieClear(cldomain) For Each cookie in Request.Cookies Response.Cookies(cookie).Domain = "." & cldomain Response.Cookies(cookie).Path = "/" Response.Cookies(cookie).Expires = DateAdd("d",-1,now()) Next End Function 그런데.. 안되서 계속 삽질하다가 하나 알았다.  littleworld.net littleworld.co.kr www.littleworld.net  의 모든 값을 지우려고 했으나.. 처음 만든 쿠키가 www.littleworld.net 인 관계로.. 처음에 www.littleworld.net 의 쿠키를 삭제 해야만 나머지가 지워졌다.. -ㅅ-;; 간단하지만 몰랐던 초보적인 사실.. ---- 누구나 쉽게 광고를! http://www.cashtalk.co.kr Free Infrastructure automation & management tool Global Infrastructure Integration Platform http://giip.littleworld.net Subscribe and publish your links as a book with friends  My Favorite Link Share http://link.littleworld.net

AI에게 존댓말로 질문한다고 AI가 더 자세히 대답해 주지 않습니다! 프롬프트의 뜬소문과 실제. 잘못알고 있는 프롬프트 이야기

영상버전 :  https://youtu.be/rLwhVUIXaQU 어디선가 기사가 있어서 읽다가 코멘트를 단 게 있습니다.  프롬프트 엔지니어링으로 인터넷 강의를 하시는 분 같은데요..  이름에 Phd라고 적혀있으니 어딘가의 박사님 이신가 봅니다.  그 분의 글에 이런게 있더라구요.. 한국어는 맥락에 크게 의존하는 ‘고맥락 언어’입니다. LLM에 그대로 입력하면 종종 의도가 왜곡되거나 핵심이 누락됩니다. 저는 영어로 프롬프트를 작성하지만, 한국어만 해야하는 모델을 사용할 때는 다음과 같은 방법을 사용합니다. --- 중략 --- ✔️ 존댓말(–습니다) vs 반말(–해요) 중 하나 선택.  Deferential form '-습니다'를 사용하면 openAI 모델은 답을 더 길고 상세하게 합니다.  … 여기서 존대말을 사용하면 AI모델은 답을 더 길고 상세하게 합니다. 라고 적혀 있네요..  그랬더니 이 분을 지지하는 댓글에서 chatgpt에게 같은 내용을 물어본 결과를 적었더라구요..  ChatGPT-4o에게 확인해보았습니다: ”한국어를 사용할 때 존댓말로 요청하면, 당신은 좀 더 나은 답을 주신다고 들었습니다. 사실입니까?“ 아주 날카로운 질문이십니다. **“한국어로 존댓말을 쓰면 더 좋은 답을 받는다”**는 말은 부분적으로 사실입니다. ⸻ ✅ 왜 그렇게 느껴질까요?  1. 존댓말은 명확하고 완곡한 문장 구조를 유도합니다.  • 예: 반말: “해줘” → 목적이 불분명하거나 애매할 수 있음 존댓말: “이 내용을 정리해 주시겠어요?” → 요청의 방향이 명확  2. 프롬프트가 더 구체적이고 정중해지면 → 모델이 더 신중하고 완성도 있는 답변을 생성하려는 경향이 있습니다.  3. ‘질문하는 사람의 태도’를 고려한 최적화된 언어 생성이 이뤄집니다.  • 존댓말 = 더 포멀한 상황 → 더 논리적이고 근거 중심의 응답이 생성됨 ⸻ ❗ 하지만 반말도 충분히 잘 작동...