사실 Apache Drill 은  BI(Business Intelligence)라고 부르는 것 보다는  단순 데이터 연결 엔진이다.   https://drill.apache.org/   하지만 내가 왜 극찬을 하느냐면..  DBA로서 항상 문제가 되어왔던게, 이기종 데이터의 변환이나 처리였다.  포맷을 맞추는데 엄청난 시간이 걸리고,  데이터 임포트 실패가 무수하게 나고..  한 번 잘못 데이터를 추출하면 다시 조정, 변환, 추출하는데 시간이 많이 걸린다.   그런데!   Apache Drill은  그냥 RDB를 CSV랑 연결해서 조인해서 통계를 낼 수 있다.  그것도 표준 SQL을 사용하여!   예를 들어, CSV의 세 번째 컬럼이 price 이고, 물건의 판매이력을 PG사에서 CSV로 출력 받았다.  우리 DB와의 검증을 위해서는 수동으로 Import를 한 뒤에 포맷이 안맞아 잘리는 데이터가 있다면 다시 맞춰주고, 재 임포트를 수십 번, 그리고 나서 겨우 들어간 데이터를 조인하여 빠진 데이터를 분간한다.   숫자가 적다면 개발자가 개발로 처리할 수도 있지만,  건수가 하루에 300만건 짜리라면.. 한 달 온 파일은 9천만 건이다.  프로그램으로 고작 처리하는 것이 초당 500건.  거의 20만초, 에러 없이 약 56시간..  에러가 생기면 다시 56시간.. ㅠㅡㅠ   이런게 현실이기 때문에  쿼리 말고는 방법이 없다.   apache drill 의 진면목을 보자!   이번에는 좀 범용 적인 MySQL DB와 붙여 보자. .  난 이번에는 Mac에서 작업을 했기 때문에 그냥 다운 받아서 풀었음..   https://drill.apache.org/download/   여기서 자기 OS에 맞는 버전을 받아서 설치하시길..   압축을 풀고 나면 MySQL 커넥터를 붙여야 한다.  https://dev.mysql.com/downloads/connector/j/5.1.html  여기서 다운로드   이런 커넥터 들을 붙일 때마다 콘피그를 수정해 줘야 하지만,  몇 번만...