영상버전 : https://youtu.be/zFXmIoSQU5Q 요즘 핫한 이슈니까 좀 얻어타볼께요.. 제가 좋아하는 안될공학 이란 곳에서 공식 문서나 기타 정보를 베이스로 신뢰성있고 깊이 있는 정보를 다뤄주고 있어서 그 곳을 참고하시면 왜 DeepSeek가 생각보다 부풀려 있는지를 잘 이야기 해주고 있습니다. 거기까지 가서 보기 귀찮으신 분들께 요약을 해드리자면 DeepSeek는 결고 학습 비용이 싸지 않습니다. 이건 DeepSeek의 공식 문서에서도 나와 있는데요, 거의 1/10의 비용을 들였다고 하는 부분만 기사화가 되어서 다들 그런줄 아시는데, 필요한 전제 학습은 모두 끝낸 뒤 마지막 테스트 비용이 1/10이라서 전제 학습에 들어간 비용은 포함되지 않았다는 이야기 입니다. 즉, 그게 100배 들어갔는지 알 방법이 없는거죠.. 두 번쨰, 오픈소스라고 했는데, AI개발하시는 분들은 다들 아시겠지만, AI는 이미 Python의 pytorch나 tensorflow 모듈을 설치하고 거기서 호출하는게 다 입니다. 즉, 모든 알고리즘은 1950년대에 이론이 완성되었구요, 그 알고리즘들의 조합을 이용한 여러가지 방법론이 클라우드 시대의 분산 컴퓨팅 파워를 활용해서 나오기 시작한거죠. 그 조합 중에 Neural Network가 있는거구요, Neural Network의 조합 개념을 활용하여 알고리즘 조합 차이로 DNN과 CNN, SNN이 있는 겁니다. 그 중 DNN을 활용한 것 중에 transformer라는 방법론이 있는거구요, 이번 deepseek의 오픈 소스를 보시면 아시는 분들은 아시겠지만, Pytorch의 transformer의 모듈을 그냥 갖다 쓴게 아니라 어짜피 transformer도 여러가지 알고...