사실 Apache Drill 은
BI(Business Intelligence)라고 부르는 것 보다는
단순 데이터 연결 엔진이다.
https://drill.apache.org/
하지만 내가 왜 극찬을 하느냐면..
DBA로서 항상 문제가 되어왔던게, 이기종 데이터의 변환이나 처리였다.
포맷을 맞추는데 엄청난 시간이 걸리고,
데이터 임포트 실패가 무수하게 나고..
한 번 잘못 데이터를 추출하면 다시 조정, 변환, 추출하는데 시간이 많이 걸린다.
그런데!
Apache Drill은
그냥 RDB를 CSV랑 연결해서 조인해서 통계를 낼 수 있다.
그것도 표준 SQL을 사용하여!
예를 들어, CSV의 세 번째 컬럼이 price 이고, 물건의 판매이력을 PG사에서 CSV로 출력 받았다.
우리 DB와의 검증을 위해서는 수동으로 Import를 한 뒤에 포맷이 안맞아 잘리는 데이터가 있다면 다시 맞춰주고, 재 임포트를 수십 번, 그리고 나서 겨우 들어간 데이터를 조인하여 빠진 데이터를 분간한다.
숫자가 적다면 개발자가 개발로 처리할 수도 있지만,
건수가 하루에 300만건 짜리라면.. 한 달 온 파일은 9천만 건이다.
프로그램으로 고작 처리하는 것이 초당 500건.
거의 20만초, 에러 없이 약 56시간..
에러가 생기면 다시 56시간.. ㅠㅡㅠ
이런게 현실이기 때문에
쿼리 말고는 방법이 없다.
apache drill 의 진면목을 보자!
이번에는 좀 범용 적인 MySQL DB와 붙여 보자. .
난 이번에는 Mac에서 작업을 했기 때문에 그냥 다운 받아서 풀었음..
https://drill.apache.org/download/
여기서 자기 OS에 맞는 버전을 받아서 설치하시길..
압축을 풀고 나면 MySQL 커넥터를 붙여야 한다.
https://dev.mysql.com/downloads/connector/j/5.1.html
여기서 다운로드
이런 커넥터 들을 붙일 때마다 콘피그를 수정해 줘야 하지만,
몇 번만 하면 끝나기 때문에 일단 수동으로..
vi <drill path>/conf/drill-override.conf
에디터로 연 곳에 아래 문장을 추가
drill.exec.sys.store.provider.local.path = "mysql-connector-java-5.1.37-bin.jar"
그래서 디렉토리는 Download에 그냥 풀었....지요.. 난 컴맹이니까!
드릴을 실행해 봅시다!
~/Downloads/apache-drill-1.14.0/bin/drill-embedded
실행을 하면 웹 브라우저에서 콘피그에 접속할 수 있습니다.
http://localhost:8047/
여기서 Storage > Create 를 눌러서 저장소를 추가.
스토리지 명은 pg1901로 해봤습니다.
{
"type": "jdbc",
"driver": "com.mysql.jdbc.Driver",
"url": "jdbc:mysql://mysql.littleworld.net:3306",
"username": "lwuser",
"password": "lwpwd",
"enabled": true
}
이렇게 하면 준비 끝.
드릴이 설치된 곳에서 위의 실행을 하면 프롬프트가 아래처럼 바뀝니다.
drill(0: jdbc:drill:zk=local)
여기서 실제로 연결되었는지 봅시다.
show databases;
'+-------------------------------+
| SCHEMA_NAME |
+-------------------------------+
| cp.default |
| dfs.default |
| dfs.root |
| dfs.tmp |
| INFORMATION_SCHEMA |
| mysqllw.lwdb |
| sys |
+-------------------------------+
7 rows selected (0.747 seconds)
mysqllw.lwdb 라는 mysql의 연결된 DB가 생긴 것이 보입니다.
한 번 쿼리를 날려봅시다.
select * from mysqllw.lwdb.`tuser` limit 10;
데이터가 표시되지요?
성공 입니다!
이제 파일도 한 번 열어볼까요?
파일 관련 저장소 접속은 디폴트로 dfs라는 것으로 잡혀 있기 때문에 그냥 쿼리를 날리면 됩니다.
Downloads에 user.181012.json 이란 json으로 떨어졌다고 합시다.
select * from dfs.`/Users/lowyshin/Downloads/user.181012.json` t;
오옷!! 출력 되지요?
Google Analytics의 통계 원본 데이터를 떨궈보았습니다.. 파일은 CSV로 되어 있으나 탭으로 분리되어 있네요.. 이 경우 Drill은 확장자로 파일을 판별하기 때문에 그대로 사용하면 하나의 필드로 인식합니다. 때문에 tsv로 확장자를 변경 한 뒤에 쿼리를 날려야 합니다 .
select f from (select FLATTEN(`columns`) as f from dfs.`/Users/lowyshin/worker.tsv` t) t2 where t2.f like '%expires%' limit 10;
일반적인 SQL을 사용했기 때문에 대충 아시겠지요?
FLATTEN이란 명령을 사용해서 내용 부분을 텍스트화 시키는 방법을 사용하면 뭔가 대충 뭉개서 필드를 인식 시킬 수가 있습니다. 즉, 그냥 worker.tsv를 select 했을 때는 like가 먹지 않았는데 FLATTEN을 사용하니 like를 써도 제대로 필터가 됬습니다.
왜냐구요? 아직 몰라요 =ㅅ=;; 그냥 하세요!
아시는 분은 알려주심 감사~
컬럼을 지정하는 경우
select columns[0], columns[1], * from dfs.`/Users/lowyshin/Downloads/ga-gal-device-20180901.csv` limit 10;
이런식으로 지정하시면 됩니다.
필드 하나하나 배열로 지정하려니 기억이 안나시죠?
그냥 View를 하나 만듭시다..
Apache drill은 select 밖에 안된다구요?
자! 이런 방법이 있습니다.
use dfs.tmp
create view vGA_SS_Device as
"select columns[0] as gsdevicetype, columns[1] as gsterm, columns[2] as gscate from dfs.`/Users/lowyshin/Downloads/ga-gal-device-20180901.csv`
where columns[0] is not null
limit 10;"
dfs.tmp를 사용해서 내가 쓸 수 있는 영역으로 데이터베이스 영역을 이동시킵니다.
거기서 vGA_SS_Device 라는 뷰를 만들어서 ga-gal-device-20180901.csv 를 view 로 만들면서 각각의 컬럼을 alias 화 시켜 버립니다.
그 담부터는 그냥 vGA_SS_Device를 쿼리로 가져오면 편리하지요.
Join을 하고 싶다면
select a.*, b.*
from mysqllw.lwdb.`tuser` a, vGA_SS_Device b
where a.did = b.did
이렇게 하면 tuser는 mysql이고 vGA_SS_Device는 Google analytics에서 export 한 csv파일입니다. 그런데 쉽게 조인이 되지요. 필드가 안맞으면 데이터가 표시 안될 뿐 쿼리에 문제만 없으면 에러가 없습니다. JSON의 경우도 필드가 없으면 데이터가 안보일 뿐이기 때문에
기존 처럼 필드 하나하나 맞춰야 하는 문제가 사라집니다.
게다가 Query를 날려서 리턴 받은 것을 다른 곳으로 쏘거나 하는 식으로 만들면
이기종간의 변환 없이 데이터 분석 Visualization이 가능합니다.
한 번 도전 해보시길!!
Do not login your server any more! Free server management tool! http://giipweb.littleworld.net
Subscribe and publish your links as a book with friends My Favorite Link Share http://link.littleworld.net
BI(Business Intelligence)라고 부르는 것 보다는
단순 데이터 연결 엔진이다.
https://drill.apache.org/
하지만 내가 왜 극찬을 하느냐면..
DBA로서 항상 문제가 되어왔던게, 이기종 데이터의 변환이나 처리였다.
포맷을 맞추는데 엄청난 시간이 걸리고,
데이터 임포트 실패가 무수하게 나고..
한 번 잘못 데이터를 추출하면 다시 조정, 변환, 추출하는데 시간이 많이 걸린다.
그런데!
Apache Drill은
그냥 RDB를 CSV랑 연결해서 조인해서 통계를 낼 수 있다.
그것도 표준 SQL을 사용하여!
예를 들어, CSV의 세 번째 컬럼이 price 이고, 물건의 판매이력을 PG사에서 CSV로 출력 받았다.
우리 DB와의 검증을 위해서는 수동으로 Import를 한 뒤에 포맷이 안맞아 잘리는 데이터가 있다면 다시 맞춰주고, 재 임포트를 수십 번, 그리고 나서 겨우 들어간 데이터를 조인하여 빠진 데이터를 분간한다.
숫자가 적다면 개발자가 개발로 처리할 수도 있지만,
건수가 하루에 300만건 짜리라면.. 한 달 온 파일은 9천만 건이다.
프로그램으로 고작 처리하는 것이 초당 500건.
거의 20만초, 에러 없이 약 56시간..
에러가 생기면 다시 56시간.. ㅠㅡㅠ
이런게 현실이기 때문에
쿼리 말고는 방법이 없다.
apache drill 의 진면목을 보자!
이번에는 좀 범용 적인 MySQL DB와 붙여 보자. .
난 이번에는 Mac에서 작업을 했기 때문에 그냥 다운 받아서 풀었음..
https://drill.apache.org/download/
여기서 자기 OS에 맞는 버전을 받아서 설치하시길..
압축을 풀고 나면 MySQL 커넥터를 붙여야 한다.
https://dev.mysql.com/downloads/connector/j/5.1.html
여기서 다운로드
이런 커넥터 들을 붙일 때마다 콘피그를 수정해 줘야 하지만,
몇 번만 하면 끝나기 때문에 일단 수동으로..
vi <drill path>/conf/drill-override.conf
에디터로 연 곳에 아래 문장을 추가
drill.exec.sys.store.provider.local.path = "mysql-connector-java-5.1.37-bin.jar"
그래서 디렉토리는 Download에 그냥 풀었....지요.. 난 컴맹이니까!
드릴을 실행해 봅시다!
~/Downloads/apache-drill-1.14.0/bin/drill-embedded
실행을 하면 웹 브라우저에서 콘피그에 접속할 수 있습니다.
http://localhost:8047/
여기서 Storage > Create 를 눌러서 저장소를 추가.
스토리지 명은 pg1901로 해봤습니다.
{
"type": "jdbc",
"driver": "com.mysql.jdbc.Driver",
"url": "jdbc:mysql://mysql.littleworld.net:3306",
"username": "lwuser",
"password": "lwpwd",
"enabled": true
}
이렇게 하면 준비 끝.
드릴이 설치된 곳에서 위의 실행을 하면 프롬프트가 아래처럼 바뀝니다.
drill(0: jdbc:drill:zk=local)
여기서 실제로 연결되었는지 봅시다.
show databases;
'+-------------------------------+
| SCHEMA_NAME |
+-------------------------------+
| cp.default |
| dfs.default |
| dfs.root |
| dfs.tmp |
| INFORMATION_SCHEMA |
| mysqllw.lwdb |
| sys |
+-------------------------------+
7 rows selected (0.747 seconds)
mysqllw.lwdb 라는 mysql의 연결된 DB가 생긴 것이 보입니다.
한 번 쿼리를 날려봅시다.
select * from mysqllw.lwdb.`tuser` limit 10;
데이터가 표시되지요?
성공 입니다!
이제 파일도 한 번 열어볼까요?
파일 관련 저장소 접속은 디폴트로 dfs라는 것으로 잡혀 있기 때문에 그냥 쿼리를 날리면 됩니다.
Downloads에 user.181012.json 이란 json으로 떨어졌다고 합시다.
select * from dfs.`/Users/lowyshin/Downloads/user.181012.json` t;
오옷!! 출력 되지요?
Google Analytics의 통계 원본 데이터를 떨궈보았습니다.. 파일은 CSV로 되어 있으나 탭으로 분리되어 있네요.. 이 경우 Drill은 확장자로 파일을 판별하기 때문에 그대로 사용하면 하나의 필드로 인식합니다. 때문에 tsv로 확장자를 변경 한 뒤에 쿼리를 날려야 합니다 .
select f from (select FLATTEN(`columns`) as f from dfs.`/Users/lowyshin/worker.tsv` t) t2 where t2.f like '%expires%' limit 10;
일반적인 SQL을 사용했기 때문에 대충 아시겠지요?
FLATTEN이란 명령을 사용해서 내용 부분을 텍스트화 시키는 방법을 사용하면 뭔가 대충 뭉개서 필드를 인식 시킬 수가 있습니다. 즉, 그냥 worker.tsv를 select 했을 때는 like가 먹지 않았는데 FLATTEN을 사용하니 like를 써도 제대로 필터가 됬습니다.
왜냐구요? 아직 몰라요 =ㅅ=;; 그냥 하세요!
아시는 분은 알려주심 감사~
컬럼을 지정하는 경우
select columns[0], columns[1], * from dfs.`/Users/lowyshin/Downloads/ga-gal-device-20180901.csv` limit 10;
이런식으로 지정하시면 됩니다.
필드 하나하나 배열로 지정하려니 기억이 안나시죠?
그냥 View를 하나 만듭시다..
Apache drill은 select 밖에 안된다구요?
자! 이런 방법이 있습니다.
use dfs.tmp
create view vGA_SS_Device as
"select columns[0] as gsdevicetype, columns[1] as gsterm, columns[2] as gscate from dfs.`/Users/lowyshin/Downloads/ga-gal-device-20180901.csv`
where columns[0] is not null
limit 10;"
dfs.tmp를 사용해서 내가 쓸 수 있는 영역으로 데이터베이스 영역을 이동시킵니다.
거기서 vGA_SS_Device 라는 뷰를 만들어서 ga-gal-device-20180901.csv 를 view 로 만들면서 각각의 컬럼을 alias 화 시켜 버립니다.
그 담부터는 그냥 vGA_SS_Device를 쿼리로 가져오면 편리하지요.
Join을 하고 싶다면
select a.*, b.*
from mysqllw.lwdb.`tuser` a, vGA_SS_Device b
where a.did = b.did
이렇게 하면 tuser는 mysql이고 vGA_SS_Device는 Google analytics에서 export 한 csv파일입니다. 그런데 쉽게 조인이 되지요. 필드가 안맞으면 데이터가 표시 안될 뿐 쿼리에 문제만 없으면 에러가 없습니다. JSON의 경우도 필드가 없으면 데이터가 안보일 뿐이기 때문에
기존 처럼 필드 하나하나 맞춰야 하는 문제가 사라집니다.
게다가 Query를 날려서 리턴 받은 것을 다른 곳으로 쏘거나 하는 식으로 만들면
이기종간의 변환 없이 데이터 분석 Visualization이 가능합니다.
한 번 도전 해보시길!!
Do not login your server any more! Free server management tool! http://giipweb.littleworld.net
Subscribe and publish your links as a book with friends My Favorite Link Share http://link.littleworld.net
댓글
댓글 쓰기