DeepSeek | |
<colbgcolor=#ddd,#000> 분류 | 소형 언어 모델 |
개발사 | DeepSeek |
최신 버전 | V3, R1 |
링크 |
[clearfix]
1. 개요
DeepSeek은 Deepseek사의 오픈소스 언어 모델이다.2. 제품
2.1. DeepSeek-Coder
2023년 11월 14일에 공개되었다.#2.2. DeepSeek-LLM
2023년 11월 29일에 공개되었다.#2.3. DeepSeek-MoE
2024년 1월 11일에 공개되었다.#2.4. DeepSeek-Math
2024년 2월 6일에 공개되었다.#2.5. DeepSeek-VL
2024년 3월 15일에 공개되었다.#2.6. DeepSeek-V2
2024년 5월 6일에 공개되었다.#2.7. DeepSeek-Coder-V2
2024년 6월 17일에 공개되었다.#DeepSeek-V2에서 6조 개 의 토큰을 추가학습하여 일반적인 작업에서의 성능을 유지하면서 코딩과 수학적 추론 능력을 향상시켰다고 한다. 지원 프로그래밍 언어를 86개에서 338개로 확장하고 컨텍스트 길이를 16K -> 128K로 확장했다고 한다.
공개된 벤치마크 데이터에 의하면, GPT-4o-0513과 거의 비슷한 성능을 보여준다.
2.8. DeepSeek-V2.5
2024년 9월 5일에 공개되었다.#V2[1]와 Coder-V2[2]를 각각 파인튜닝하여 업그레이드 한 뒤 두 모델을 통합시켜 만들었다고 한다.
기존 2.5 버전을 파인-튜닝 한 V2.5-1210이 12월 10일에 출시되었다.#
2.9. DeepSeek-VL2
2024년 12월 13일에 공개되었다.#기존 VL1을 업그레이드한 버전이며, 1B, 2.8B, 4.5B 3가지 모델로 구성되어있다.
2.10. DeepSeek-V3
2024년 12월 26일에 공개되었다.#V2 대비 반응 속도가 3배 빨라졌으며, Claude-3.5-sonnet-1022, GPT-4o-0513, LLama3.1-405B-Inst, Qwen2.5-72B를 모조리 압도하는 성능을 보여줬다.
현존 AI중에 성능대비 가장 저렴한 가격을 보여주고있다.
2.11. DeepSeek-R1
2025년 1월 20일에 공개되었다.#DeepSeek-V3를 기반으로 하는 2가지 모델[3]과, 오픈소스 모델에 R1을 통해 생성한 데이터셋으로 파인튜닝한 6가지 모델[4]로 구성되어 있다.
모든 모델은 MIT 라이센스가 적용되어 완전히 자유로운 사용이 가능하다.
공개된 벤치마크 결과에 의하면 OpenAI-o1-mini를 뛰어넘고, o1과 맞먹는 결과를 보여준다.