기본 콘텐츠로 건너뛰기

라벨이 data analytics인 게시물 표시

한국의 IT Outsourcing 시장의 현실과 미래에 대한 고찰

중복 되는 이야기를 자주 쓰긴 하지만,  중간중간 정리하고 통합하겠습니다. ^^ 한국의 IT Outsourcing 시장은  서점에서 파는 모 백서에 따르면 년매출 약 4조원 정도 됩니다.  공교롭게도 94%는 대기업과 공공기관에서 발주하는 물량이구요,  6%인 2400억원 정도가 중견 이하에서 올리는 매출이지요.  물론 중견기업과 중소기업의 많은 부분조차 대기업의 하청으로 생기는 물량이기 때문에 중소기업자체의 매출은 극히 드물다고 생각하시면 됩니다.  IT에 종사하시는 분들은 그냥 실감이 나실 것입니다.  이 글을 읽고 있는 본인 뿐만아니라 많은 동종업계 종사자 분들이 늘상 하는 얘기는 조달청에 어떻게 하면 입찰을 잘하는지 눈여겨 본다거나 국가 예산 따먹기를 위해 얼마나 머리를 굴려야 하는지.. 즉, IT다운 곳에 쓰이는 금액 보다는  얼마나 눈치를 잘보고  제안서를 화려하게 잘 쓰고 화려한 입담으로 담당자를 속여 넘겨야  되는지를 자랑처럼 늘어 놓습니다.  심지어는 국가 예산 통과를 도와주는 전문 기업도 나오고 있지요.  그렇게 국가에서 2억의 예산을 받으면 통과 기업이니 기술료니 비용 계상(計上)을 도와준 기업의 수수료니 하면 반은 빠져 나갑니다.  그리고 나서 나머지 금액으로 국가에 형식적으로 리포팅하면서 버리는 시간과 비용을 생각하면.... 남는게 없지만 현상 유지를 위해선 여기에 매달려 이게 주업이 된 기업들도 많지요.  늘상 비교를 하고 있지만,  일본의 IT Outsourcing 시장만 보더라도 1등 기업이 4조엔(한화 44조여원)이지만,  한국과는 달리 2등 기업이 약 2.5조엔(한화 28조여원)으로 상위 기업들이 엄청난 편차를 가지고 있지 않습니다.  그냥 30세의 독립한 소규모 IT Outsourcing사업을 하는 젋은 사람도 200억엔(한화 2200억여원) 매출을 내기도 하니까요. 한국에서는 ...

BI의 궁극판! Apache Drill을 써보자!

사실 Apache Drill 은 BI(Business Intelligence)라고 부르는 것 보다는 단순 데이터 연결 엔진이다. https://drill.apache.org/ 하지만 내가 왜 극찬을 하느냐면.. DBA로서 항상 문제가 되어왔던게, 이기종 데이터의 변환이나 처리였다. 포맷을 맞추는데 엄청난 시간이 걸리고, 데이터 임포트 실패가 무수하게 나고.. 한 번 잘못 데이터를 추출하면 다시 조정, 변환, 추출하는데 시간이 많이 걸린다. 그런데! Apache Drill은 그냥 RDB를 CSV랑 연결해서 조인해서 통계를 낼 수 있다. 그것도 표준 SQL을 사용하여! 예를 들어, CSV의 세 번째 컬럼이 price 이고, 물건의 판매이력을 PG사에서 CSV로 출력 받았다. 우리 DB와의 검증을 위해서는 수동으로 Import를 한 뒤에 포맷이 안맞아 잘리는 데이터가 있다면 다시 맞춰주고, 재 임포트를 수십 번, 그리고 나서 겨우 들어간 데이터를 조인하여 빠진 데이터를 분간한다. 숫자가 적다면 개발자가 개발로 처리할 수도 있지만, 건수가 하루에 300만건 짜리라면.. 한 달 온 파일은 9천만 건이다. 프로그램으로 고작 처리하는 것이 초당 500건. 거의 20만초, 에러 없이 약 56시간.. 에러가 생기면 다시 56시간.. ㅠㅡㅠ 이런게 현실이기 때문에 쿼리 말고는 방법이 없다. apache drill 의 진면목을 보자! 이번에는 좀 범용 적인 MySQL DB와 붙여 보자. . 난 이번에는 Mac에서 작업을 했기 때문에 그냥 다운 받아서 풀었음.. https://drill.apache.org/download/ 여기서 자기 OS에 맞는 버전을 받아서 설치하시길.. 압축을 풀고 나면 MySQL 커넥터를 붙여야 한다. https://dev.mysql.com/downloads/connector/j/5.1.html 여기서 다운로드 이런 커넥터 들을 붙일 때마다 콘피그를 수정해 줘야 하지만, 몇 번만...