기본 콘텐츠로 건너뛰기

라벨이 deepseek인 게시물 표시

DeepSeek의 소스를 까보자..

영상버전 :  https://youtu.be/zFXmIoSQU5Q 요즘 핫한 이슈니까 좀 얻어타볼께요..  제가 좋아하는 안될공학 이란 곳에서 공식 문서나  기타 정보를 베이스로 신뢰성있고 깊이 있는 정보를 다뤄주고 있어서  그 곳을 참고하시면 왜 DeepSeek가 생각보다 부풀려 있는지를 잘 이야기 해주고 있습니다.  거기까지 가서 보기 귀찮으신 분들께 요약을 해드리자면 DeepSeek는 결고 학습 비용이 싸지 않습니다.  이건 DeepSeek의 공식 문서에서도 나와 있는데요,  거의 1/10의 비용을 들였다고 하는 부분만 기사화가 되어서  다들 그런줄 아시는데,  필요한 전제 학습은 모두 끝낸 뒤 마지막 테스트 비용이 1/10이라서 전제 학습에 들어간 비용은 포함되지 않았다는 이야기 입니다.  즉, 그게 100배 들어갔는지 알 방법이 없는거죠..  두 번쨰, 오픈소스라고 했는데,  AI개발하시는 분들은 다들 아시겠지만,  AI는 이미 Python의 pytorch나 tensorflow 모듈을 설치하고  거기서 호출하는게 다 입니다.  즉, 모든 알고리즘은 1950년대에 이론이 완성되었구요,  그 알고리즘들의 조합을 이용한 여러가지 방법론이  클라우드 시대의 분산 컴퓨팅 파워를 활용해서  나오기 시작한거죠.  그 조합 중에 Neural Network가 있는거구요,  Neural Network의 조합 개념을 활용하여  알고리즘 조합 차이로 DNN과 CNN, SNN이 있는 겁니다. 그 중 DNN을 활용한 것 중에   transformer라는 방법론이 있는거구요,  이번 deepseek의 오픈 소스를 보시면 아시는 분들은 아시겠지만,  Pytorch의 transformer의 모듈을 그냥 갖다 쓴게 아니라 어짜피 transformer도 여러가지 알고...