기본 콘텐츠로 건너뛰기

한국은 AI 후진국? 핵심기술 0개! 하지만 기회의 시기!




눈 떠보니 후진국?…한국 AI 핵심기술 '0'|지금 이 뉴스

 참 난감한 기사가 자주 올라오고 있죠.
 이러다 한국 망하는 거 아녀?
 또는 여러 ai반도체 기업이 나왔는데 뭔소리 하는겨?
 라던가..

 전 이 기사도 맞다고 생각합니다.
 단지 이 기사는 인기몰이용 기사라서 더 자극적으로 쓰는 것이구요,
 제 콘텐츠를 보시면 제가 누누히 강조하는 
한국인의 강점이 있잖아요?

 이론은 개뿔도 모르면서 엄청난 사용자들의 나라…
 김연아씨는 피겨스케이트를 만들 줄 모릅니다.
 임요한 선수나 페이크 선수는 게임 개발할 줄 모릅니다(맞죠?)
 하지만 세계에서 2위와의 격차를 
한없이 벌리고 있는 선수입니다.

 이 조그맣고 사람 수가 적은 땅덩어리에 
 금메달 보유자는 왜이렇게 많을까요?
 세계 1 위는 왜이렇게 많을까요?

 한국은 세계적인 기초과학이나 원천기술은 0에 가까우나 
(물론 세계 1위 원천기술도 있습니다.)
 누군가 발표한 기술의 활용력은 세계1위를 많이 내놓고 있죠.
 
 이유는 원천기술은 엄청난 투자비가 필요하면서도 
실적이 쉽사리 눈에 보이지 않는 영역이지만
응용기술은 적은 비용으로 쉽게 결과가 보이고, 
가장 중요한 것은 상상력만 풍부하다면
전혀 다른 사용법으로 사용할 수도 있지요.. 
개발자도 그렇게 쓸지 몰랐다면서 혀를 내두르는 모습이
한국인들의 활용 사례에서 많이 보이죠.. 
그리고 혼자서 눈에 띌 수 있는 분야는 
한국인이 참 많이 보입니다.
협력을 거부하고 단기 실적만을 좇는 
한국인의 기질이려나요..

때문에 세계 최하위의 분야도 엄청 많지만,
세계적으로 돋보일 부분 중에 
한국인이 잘하는걸 빨리 찾는 것이 좋다고 생각합니다.

그렇다고 국뽕에 취해 자기가 한 것도 아니면서 
타인이나 타국을 비하하는 사람들은 
좀 없어져 줬으면 하는 생각은 여전 합니다.
(자기가 잘났어도 남을 비하하는 인성은 인간 취급 안함)

저역시 마찬가지로 파운데이션 모델을 만들거나 하지 못합니다. 
실제 AI모델들을 소스 레벨로, 그리고 원리를 공식으로 해석해보지만 
반도 해석하지 못할 정도로 복잡한 수학 원리를 사용하고 있지요. 

(복잡한 수학식.. 수학과가 아닌 이상 저거 안배울 듯)

하지만 전 AI프로젝트에 종종 참여 했습니다. 
이유는 제안이 들어온 AI프로젝트 면담을 할 때마다 
그들이 쓰고 있는 알고리즘을 원론부터 설명할 수 있었고, 
그 알고리즘의 활용 방법이나 더 좋은 알고리즘의 제안이 가능했기 때문이죠. 
물론 전 개발자가 아니고 IT인프라 운영 컨설팅 쪽으로 들어가는 것이지만
알고리즘을 알고 그 알고리즘을 최대한 활용할 수 있는 인프라의 제안과
그 이유를 명확하게 개발자들에게 설명할 수 있기 때문이었죠. 

예를 들어 대량의 데이터를 먼저 로드한 뒤에 
메모리에서 매핑해서 처리하는 알고리즘이 있는가 하면
조금씩 청크화 하여 읽어낸 뒤에 처리하고 다시 저장하는 방식으로 
메모리가 적어도 처리가 쉬운 모델들도 있지요. 

알고리즘 뿐만 아니라 처리 명령어 역시 차이가 있습니다. 
CUDA는 메모리가 적어도 처리속도를 떨구지 않도록 IO를 최대한 살리지만
OpenCL은 메모리의 영향을 많이 받기 때문에
충분한 메모리 위에서 돌리지 않으면 실행 자체가 안되기도 하지요. 
그래서 OpenCL은 코드에서 용량 제한이나 
청크화 같은것을 고려해야 하지요. 

같은  수학식을 CUDA로 돌리느냐 OpenCL로 돌리느냐가
단순히 NVIDIA냐 그 외(AMD등) 용이냐 뿐만 아니라
돌리는 머신의 메모리 사이즈에 영향을 받는다는 얘기이죠. 

한국의 유튜브를 보면 독특한 것이 
엄청나게 꼼꼼하게 제품을 비교하는 영상이 많습니다. 

저 역시 일본이나 외국 자료도 많이 보지만, 
오히려 디테일이 좋은 한국 분들이 훨씬 많았던 것 같습니다. 

요즘 안건들은 chatgpt api를 활용하는 안건이 많다보니
알고리즘을 이용한 인프라 설계보다는 
API로 리턴 받은 데이터를 얼마나 많이 
보관하고 재활용 하느냐가 관건이 됩니다. 

때문에 기존 인프라를 잘 아는 사람들에게 메리트가 있구요, 
그 중에서도 twitter같은 대량의 텍스트의 
저장 및 검색, 활용 경험이 더 유리한 것 같습니다. 

일반 RDBMS는 기존 서비스로 사용을 하고, 
이런 api결과는 NoSQL을 쓰는게 더욱 효율적이라는 이야기 이죠. 
그렇다면 NoSQL의 특징과, 저장한 데이터를 어떤 사용 패턴에 따라 
얼마만큼 로드를 하느냐를 잘 알고 그에 맞는 효율적인 구성을 하게 해 주어야지요. 

NoSQL은 개발자분들이야 단순히 던지고 받기만 하면 되지만, 
인프라 구성은 각 노드를 몇 대를 두느냐에 따라 
성능이 완전히 달라지거든요. 

워낙 많은 인스턴스를 사용하기 때문에 
노드의 확장에 따른 비용에 민감해지게 되는데요.. 
NoSQL은 제품에 따라 노드의 명칭이 다르기 때문에 
알기 쉬운 표현을 쓰겠습니다. 


AI를 위한 NoSQL은 저장을 많이 하는 경우가 많고, 
동일 데이터의 복수 select는 생각보다 적은 경우가 많지만, 
그건 서비스마다 다를 수 있으니 서비스를 잘 파악해야 하구요.. 

만약 동시 입출력이 많다면 
클라이언트 세션을 받는노드 가 많을 수록 좋구요, 
저장된 데이터가 많아서 셀렉트를 많이 하는 경우 쿼리 처리 노드가 많이 필요합니다. 
물론 데이터가 많은 데이터 노드가 많을 수록 좋겠지요. 

갑자기 chatgpt용 AI인프라 구성 강좌가 되어 버렸는데요.. 

앞부분에서도 말씀 드렸듯이, 
가볍게 기술정보를 훑어보는 한국 분들도 많지만, 
원리를 아는지 모르겠지만 
놀랄 정도로 활용을 잘하는 한국 분들이 많습니다. 

AI시대가 오면서 제가 느끼는 것은
원리를 모르지만 입력에 따른 출력을 추론하는 신경망 처럼
원리를 모르면 답답해하는 연구자들 보다는
원리를 몰라도 결론을 만들어 내는 한국인들에게 
최고의 환경을 주고 있지 않을까 합니다.

이런 식으로 AI의 원천 기술이 없는 한국에서
AI로 살아 남을 수 있는 방법은 무궁무진하고, 
그 중에서도 한국인들의 특성인
기본 원리는 모르지만 활용만큼은 천부적인 능력이
오히려 돋보이는 시대가 오기를 바랍니다.


giip :: Control all Robots and Devices! Free inter-RPA orchestration tool! https://giipasp.azurewebsites.net/

댓글

이 블로그의 인기 게시물

Alter table 에서 modify 와 change 의 차이 :: SQL Server

두 개의 차이를 모르는 경우가 많아서 정리합니다.  modify는 필드의 속성값을 바꿀때 사용하구요.. change는 필드명을 바꿀떄 사용합니다.  alter table tbbs modify bNote varchar(2000) NULL; alter table tbbs change bNoteOrg bNoteNew varchar(2000) NULL; change에는 원래 필드와 바꾸고 싶은 필드명을 넣어서 필드명을 바꾸는 것이죠~ 더 많은 SQL Server 팁을 보려면  https://github.com/LowyShin/KnowledgeBase/tree/master/wiki/SQL-Server giip :: Control all Robots and Devices! Free inter-RPA orchestration tool! https://giipasp.azurewebsites.net/

책에서는 안 알려주는 대규모 트래픽을 위한 설계

음성 버전 :  https://www.youtube.com/watch?v=ZZlW6diG_XM 대규모 트래픽을 커버하는 첫 페이지 만드는 법..  보통 DB를 연결할 때 대규모 설계는 어떻게 하시나요?  잘 만들었다는 전제 하에 동접 3000명 이하는  어떤 DBMS를 사용해도 문제 없이 돌아갑니다.  여기서 이미 터졌다면 이 콘텐츠를 보기 전에 DB의 기초부터 보셔야 합니다.  아.. 개발 코드가 터졌다구요? 그럼 개발자를 때리셔야지요..  만약 3000명을 넘겼다면? 이제 Write/Read를 분리해서  1 CRUD + n개의 READ Replica를 만들겠죠?  보통 Read Replica는 5개가 최대라고 보시면 됩니다.  누가 연구한 자료가 있었는데...  6번째 레플리카를 만든느 순간 마스터가 되는 서버의 효율 저하 때문에  5번째에서 6번쨰로 올릴때의 성능이 급격히 줄어든다는 연구 결과가 있습니다.  때문에 Azure에서도 replica설정할 때 5대까지 밖에 설정 못하게 되어 있지요.  유저의 행동 패턴에 따라 다르긴 하지만,  1 CRUD + 5 Read Replica의 경우 동접 15000명 정도는 커버 합니다.  즉, 동접 15000명 에서 다시 터져서 저를 부르는 경우가 많지요..  이 때부터는  회원 DB, 게시판DB, 서비스DB, 과금 DB 등등 으로 성격, 서로의 연관도에 따라 나누기 시작합니다.  물리적으로 DB가 나눠지면 Join을 못하거나 Linked Table또는 LinkDB등의 연결자를 이용해서 JOIN이 되기도 합니다.  그에 따라 성능 차이가 생기지만 가장 중요한 포인트는  서로 다른 물리적 테이블의 JOIN은 인덱스를 타지 않는다!  라는 것입니다. 즉, JOIN할 테이블들을 최소한으로 만든 뒤에 JOIN을 걸지 않으면 NoSQL처럼 느려터져 죽습니다.  양이 많은 DB에서 양이 적은 테이블을 가져와서 JOIN을 해야겠지요..  이렇게 해서 동접 10만명까지 커버를 했다 칩시다.  여기서 일반적인 동접의 기준도 서비스마

BI의 궁극판! Apache Drill을 써보자!

사실 Apache Drill 은 BI(Business Intelligence)라고 부르는 것 보다는 단순 데이터 연결 엔진이다. https://drill.apache.org/ 하지만 내가 왜 극찬을 하느냐면.. DBA로서 항상 문제가 되어왔던게, 이기종 데이터의 변환이나 처리였다. 포맷을 맞추는데 엄청난 시간이 걸리고, 데이터 임포트 실패가 무수하게 나고.. 한 번 잘못 데이터를 추출하면 다시 조정, 변환, 추출하는데 시간이 많이 걸린다. 그런데! Apache Drill은 그냥 RDB를 CSV랑 연결해서 조인해서 통계를 낼 수 있다. 그것도 표준 SQL을 사용하여! 예를 들어, CSV의 세 번째 컬럼이 price 이고, 물건의 판매이력을 PG사에서 CSV로 출력 받았다. 우리 DB와의 검증을 위해서는 수동으로 Import를 한 뒤에 포맷이 안맞아 잘리는 데이터가 있다면 다시 맞춰주고, 재 임포트를 수십 번, 그리고 나서 겨우 들어간 데이터를 조인하여 빠진 데이터를 분간한다. 숫자가 적다면 개발자가 개발로 처리할 수도 있지만, 건수가 하루에 300만건 짜리라면.. 한 달 온 파일은 9천만 건이다. 프로그램으로 고작 처리하는 것이 초당 500건. 거의 20만초, 에러 없이 약 56시간.. 에러가 생기면 다시 56시간.. ㅠㅡㅠ 이런게 현실이기 때문에 쿼리 말고는 방법이 없다. apache drill 의 진면목을 보자! 이번에는 좀 범용 적인 MySQL DB와 붙여 보자. . 난 이번에는 Mac에서 작업을 했기 때문에 그냥 다운 받아서 풀었음.. https://drill.apache.org/download/ 여기서 자기 OS에 맞는 버전을 받아서 설치하시길.. 압축을 풀고 나면 MySQL 커넥터를 붙여야 한다. https://dev.mysql.com/downloads/connector/j/5.1.html 여기서 다운로드 이런 커넥터 들을 붙일 때마다 콘피그를 수정해 줘야 하지만, 몇 번만