기본 콘텐츠로 건너뛰기

DeepSeek의 소스를 까보자..




요즘 핫한 이슈니까 좀 얻어타볼께요.. 

제가 좋아하는 안될공학 이란 곳에서 공식 문서나 
기타 정보를 베이스로 신뢰성있고 깊이 있는 정보를 다뤄주고 있어서 
그 곳을 참고하시면 왜 DeepSeek가 생각보다 부풀려 있는지를 잘 이야기 해주고 있습니다. 

거기까지 가서 보기 귀찮으신 분들께 요약을 해드리자면

DeepSeek는 결고 학습 비용이 싸지 않습니다. 
이건 DeepSeek의 공식 문서에서도 나와 있는데요, 
거의 1/10의 비용을 들였다고 하는 부분만 기사화가 되어서 
다들 그런줄 아시는데, 
필요한 전제 학습은 모두 끝낸 뒤 마지막 테스트 비용이 1/10이라서
전제 학습에 들어간 비용은 포함되지 않았다는 이야기 입니다. 
즉, 그게 100배 들어갔는지 알 방법이 없는거죠.. 

두 번쨰, 오픈소스라고 했는데, 
AI개발하시는 분들은 다들 아시겠지만, 
AI는 이미 Python의 pytorch나 tensorflow 모듈을 설치하고 
거기서 호출하는게 다 입니다. 

즉, 모든 알고리즘은 1950년대에 이론이 완성되었구요, 
그 알고리즘들의 조합을 이용한 여러가지 방법론이 
클라우드 시대의 분산 컴퓨팅 파워를 활용해서 
나오기 시작한거죠. 

그 조합 중에 Neural Network가 있는거구요, 
Neural Network의 조합 개념을 활용하여 
알고리즘 조합 차이로 DNN과 CNN, SNN이 있는 겁니다.
그 중 DNN을 활용한 것 중에 
 transformer라는 방법론이 있는거구요, 

이번 deepseek의 오픈 소스를 보시면 아시는 분들은 아시겠지만, 
Pytorch의 transformer의 모듈을 그냥 갖다 쓴게 아니라
어짜피 transformer도 여러가지 알고리즘의 조합이기 때문에
그 알고리즘 조합을 조금더 수정해서 
Transformer이지만 자기네들의 개념에 맞추어 더 조정한 것입니다. 

즉, 우리가 AWS나 Azure API를 직접 이용하면 
VM도 만들고 소스 관리도 하고 서버리스 인스턴스도 만들고 할 수 있죠?
하지만 terraform이란게 나와서 AWS든 Azure든 terraform에서 한 번에 관리할 수 있습니다. 
단지 azure와 aws의 terraform의 포맷이 달라서 aws용으로 만든 terraform 소스를
Azure에서 사용할 수가 없습니다. 

이런 것 처럼
ML의 다양한 함수 조합으로 transformer가 나왔는데, 
그냥 만들어진 transformer를 쓰는 사람들이 그 동안 대부분 이었지만, 
Openai도 그렇고 deepseek도 그렇고 기타 intel, ms등에서 현재 개발중인 것도
Transformer의 조합 자체를 손대는 정도인 것이죠. 

그렇게 하면 굳이 ML모듈을 하나하나 조합할 필요 없이
위에서 말한 terraform하나만으로 다양한 인프라를 만질 수 있듯이
Transformer하나만으로 다양한 알고리즘을 활용할 수 있다. 
그런데 처음 만든건 개념 구현용이다보니 효율화가 안됭어 있어서 
FP8/BF16 모듈을 끼워 넣어 
적은 비트로 메모리 효율을 좋게 한 것이죠. 
그냥 모듈을 추가해 본 겁니다. 
그랬더니 효과가 좋았다.. 
그거 뿐인거죠. 

그냥 소스 자체를 까서 보여드릴께요. 
Github를 보시면 deepseek의 파일 구조는 너무 단순합니다. 
필요한 코드는 inference내의 6개의 파이썬 파일 뿐이구요..
그 중에서 핵심이 되는 model.py가 알고리즘 모듈 호출 파일 입니다. 

Model.py를 까서 보시면

1) ModelArgs
• 모델의 하이퍼파라미터를 정의하는 데이터 클래스.
• 배치 크기, 시퀀스 길이, 차원 크기, MoE 설정 등의 다양한 설정값을 포함.
2)ParallelEmbedding
• 대규모 모델에서 분산 학습을 위한 병렬 임베딩을 제공.
3) Linear
• 저비트 연산 (FP8/BF16) 을 지원하는 선형 변환 연산.
4) ColumnParallelLinear & RowParallelLinear
• 데이터 병렬 학습을 지원하는 선형 변환 연산.
• ColumnParallelLinear: 출력 차원을 병렬로 분할.
• RowParallelLinear: 입력 차원을 병렬로 분할.
5) RMSNorm
• LayerNorm 대신 Root Mean Square Normalization (RMSNorm) 사용.
6) MLA (Multi-Headed Attention Layer)
• 표준 Transformer Attention을 개선한 MLA 구현.
• LoRA 기법을 활용하여 Query/Key/Value를 Low-rank 방식으로 압축.
7) MoE (Mixture-of-Experts)
• 여러 개의 전문가 네트워크 (Expert Layer) 를 사용하여 성능을 최적화.
• Gate를 사용해 입력을 특정 전문가에게 라우팅.
8) Block
• Transformer의 기본 블록 (Attention + MoE/MLP).
• MLA + MoE(또는 MLP)를 조합하여 하나의 Transformer Layer를 구성.
9) Transformer
• 전체 Transformer 모델을 정의.
• 병렬 임베딩 + 여러 개의 Transformer 블록 + 최종 출력 레이어 포함.

즉, Transformer자체를 사용한 것이 아니라, 
MoE 라는 방법으로 transformer의 분기를 세분화 했다.. 는게 핵심이구요.. 
FP8/BF16를 활용해서 용량을 줄였다.. 정도 입니다. 

소스라인도 804라인 정도거든요.. 
설마 이 정도로 알고리즘이 담길 수 있으리라 보지 않겠죠?

그리고 transformer는 pytorch나 tensorflow 모듈을 설치해야 하는데, 
얘네는 pytorch를 사용했습니다.

다른데에 없냐구요?
Model.py만 32kb이구요 나머진 전부 10kb미만 입니다. 
전부 합쳐도 54kb정도 사이즈이죠. 

개발하시는 분들이라면 아시겠죠?
모듈만 몇 개 넣어도 수 메가 정도 하는 요즘 세상에
54kb로 레포지터리가 완성 이라는..

즉, 오픈소스화 라는 명분을 내세워 봤자, 
이미 다른데서도 이 정도는 알고 있는데
그냥 기사화를 위한 내용인 거죠..

그럼 다른데는 그렇게 안했냐?
KAIST의 작년도 기사를 보면 비슷한 시도를 해서 AI반도체라는걸 만들어 그 모듈을 탑재했거나, 
MS에서도 적은 비트로 메모리 효율화를 했다는 논문이 있습니다. 
Intel은 DeepSeek의 MoE를 한 것과는 달리 필요에 따라 CNN특화형으로 
Transformer를 변경했죠. 

즉, 모든 국가가 transformer를 재해석하는 방법론을 구현하고 있을 뿐이구요, 
그 중에서 DeepSeek가 요즘 미국과 중국의 관계 때문에 
더 매스컴에서 주목 받고 있을 뿐인것이죠. 

혹시 DeepSeek를 들먹이며 투자 어쩌고 하는 정보가 있다면
꼭 이런 내용을 참고로 해주시기 바랍니다. 

여기저기서 너무 DeepSeek가 세상을 바꿀 것 처럼 이야기를 많이 하길래
제 채널에 계신 분들은 
다른 기사의 허무맹랑한 내용을 곧이곧대로 받아들이지 않으셨으면 하는 바램에
공유해 봅니다. 






giip :: Control all Robots and Devices! Free inter-RPA orchestration tool! https://giipasp.azurewebsites.net/

댓글

이 블로그의 인기 게시물

일본 두바퀴 여행(바이크 편)

영상버전 : https://youtu.be/P3vC17iVu1I 이번에는 일본으로 넘어와서 일본 종주하시는 바이커들을 위한 정보입니다.  일본에서의 2륜의 정의가 면허와 도로교통법이 조금씩 다르다고 합니다.  그래도 그렇게 크게 신경쓸 건 없으니 딱 세 종류로 말씀 드릴께요.  50cc는 원동기 1종이라고 하여 3차선 이상 교차로에서 우회전, 한국에선 좌회전 같이 크게 도는 것이지요..  이게 불가능합니다.  직진 신호로 넘어간 뒤에 방향을 틀고 다시 직진으로 두번 꺾어 가야 하구요,  두 명이 타면 안됩니다.  그리고 맨 가장자리 길로만 가야해서 애매하게 끝에서 두 번째 차선만 직진인 곳들이 있어서 난감할 때가 있지요. 그런데에 직진하면 걸리는 곳이 있다고 합니다. 어느 정도까지 걸리고 안걸리고는 정확히는 모르지만,  직좌 마크가 아닌 좌회전 마크만 있는 곳이 은근히 많으니 조심해야 하겠더라구요.  최고 시속도 30km를 넘기면 안되어 천천히 달려야 합니다.  아뭏든 제약이 엄청나게 많으므로 60cc이상을 가져오시거나 렌트 하시는 것을 추천하구요,  125cc미만은 겐츠키 2종이라고 하여 두 명이 타도 되고, 3차선 이상에서 우회전이 가능합니다.  상당히 제약이 풀리는 대신 고속도로를 탈 수가 없지요.  만약 국도로 천천히 올라오신다면 125cc미만으로도 충분합니다.  실제로 일본인 바이커들 중에서도 국도 종주하는 모습을 많이 볼 수 있구요,  도심에 가면 125cc미만까지만 주차 가능한 바이크 주차장도 꽤 많기 때문에 도심용으로는 메리트가 큰 것 같습니다.  뭐, 125cc대는 곳에 큰 바이크를 대는 경우도 자주 보는데, 아무도 뭐라 안하긴 합니다.  그도 그럴 것이, 일본의 바이크 등록대수는 1031만대 인데도 바이크 전용 주차장은 턱없이 부족하다고 합니다. 바이크 주차장이 저렴하기 때문에 웬만한 ...

BI의 궁극판! Apache Drill을 써보자!

사실 Apache Drill 은 BI(Business Intelligence)라고 부르는 것 보다는 단순 데이터 연결 엔진이다. https://drill.apache.org/ 하지만 내가 왜 극찬을 하느냐면.. DBA로서 항상 문제가 되어왔던게, 이기종 데이터의 변환이나 처리였다. 포맷을 맞추는데 엄청난 시간이 걸리고, 데이터 임포트 실패가 무수하게 나고.. 한 번 잘못 데이터를 추출하면 다시 조정, 변환, 추출하는데 시간이 많이 걸린다. 그런데! Apache Drill은 그냥 RDB를 CSV랑 연결해서 조인해서 통계를 낼 수 있다. 그것도 표준 SQL을 사용하여! 예를 들어, CSV의 세 번째 컬럼이 price 이고, 물건의 판매이력을 PG사에서 CSV로 출력 받았다. 우리 DB와의 검증을 위해서는 수동으로 Import를 한 뒤에 포맷이 안맞아 잘리는 데이터가 있다면 다시 맞춰주고, 재 임포트를 수십 번, 그리고 나서 겨우 들어간 데이터를 조인하여 빠진 데이터를 분간한다. 숫자가 적다면 개발자가 개발로 처리할 수도 있지만, 건수가 하루에 300만건 짜리라면.. 한 달 온 파일은 9천만 건이다. 프로그램으로 고작 처리하는 것이 초당 500건. 거의 20만초, 에러 없이 약 56시간.. 에러가 생기면 다시 56시간.. ㅠㅡㅠ 이런게 현실이기 때문에 쿼리 말고는 방법이 없다. apache drill 의 진면목을 보자! 이번에는 좀 범용 적인 MySQL DB와 붙여 보자. . 난 이번에는 Mac에서 작업을 했기 때문에 그냥 다운 받아서 풀었음.. https://drill.apache.org/download/ 여기서 자기 OS에 맞는 버전을 받아서 설치하시길.. 압축을 풀고 나면 MySQL 커넥터를 붙여야 한다. https://dev.mysql.com/downloads/connector/j/5.1.html 여기서 다운로드 이런 커넥터 들을 붙일 때마다 콘피그를 수정해 줘야 하지만, 몇 번만...

PHP SLIM Framework 의 간단한 사용방법

난 개발을 잘 못한다.  언어도 딱히 정해놓은 것도 없다.. 이번에는 누군가 SLIM Framework를 깔았다고 쓰랜다..  이건 또 머지.. 하고 그냥 써보았다.. 아마도 이게 전부가 아니고, 극히 일부중에 걍 쓰는것만 쓰는 것일지도 모르지만,  편리한 부분이 있다. $app->get('/member/emailauth', function () use ($app,$conn,$sqlmgr,$ssp) {     //--Request processing begins here...---------------------------- $email = $app->request()->get('email'); $ref = $app->request()->get('ref'); $authid = $app->request()->get('authid'); $callback = $app->request()->get('callback');     //--Control Process---------------------------------------------- try { $getMemberInfo = $ssp->getMemberInfo($conn, $sqlmgr, $email, $authid, $ref); $idx=$getMemberInfo['idx']; if($idx==""){ $postMemberInfo = $ssp->postMemberInfo($conn, $sqlmgr, $email, $authid, $ref); $data = array('result' => '0', 'message' => 'yes', ...