딥시크 'R1' 모델 출시
딥시크 'R1' 모델 출시
- 딥시크는 오픈AI의 'o1' 모델과 경쟁하는 추론 모델 ‘R1’ 시리즈를 오픈 소스로 공개하였다.
- 이 모델은 **20일(현지시간)**에 공식 출시되었으며, R1, R1-제로(R1-Zero), R1-증류(R1-Distill) 등의 모델이 포함된다.
- 딥시크-V3를 기반으로 하여 개발된 이 모델들은 세계 최고의 오픈 소스 모델로 평가받고 있다.
R1 모델의 구조와 특징
- R1과 R1-제로는 각각 6710억 개의 매개변수를 포함하고 있다.
- 이 모델은 전문가 혼합(MoE) 아키텍처를 채택하여, 전체 매개변수 중 약 340억 개만 활성화되도록 설계되었다.
- 이러한 설계는 추론 비용과 메모리 사용량을 줄이면서도 높은 성능을 유지하는 데 기여한다.
추론 기술의 학습 방법
- 추론 특화 LLM은 일반적으로 **강화 학습(RL)**과 지도 미세조정(SFT) 두 가지 방법으로 학습된다.
- RL: 시행착오를 통해 AI가 작업을 수행하도록 훈련하는 방식이다.
- SFT: 작업 예시를 제공하여 출력 품질을 향상시키는 방식이다.
- 딥시크는 R1-제로를 개발하는 과정에서 SFT를 생략했음에도 불구하고, 주요 추론 기술을 성공적으로 구현하였다.
R1-제로의 성능과 한계
- R1-제로는 **추론 벤치마크(AIME 2024)**에서 o1과 비슷한 성능을 기록하였다.
- 그러나 출력 품질에 한계가 있었으며, 다음과 같은 문제점이 발생하였다:
- 응답의 반복
- 낮은 가독성
- 언어 혼합 문제
- 이러한 문제를 해결하기 위해 딥시크는 R1 모델을 개발하였다.
R1 모델의 개선 사항
- R1은 R1-제로의 개선 버전으로, 수정된 훈련 워크플로우를 적용하였다.
- 이 훈련 워크플로우에는 R1-제로 개발 시 생략했던 SFT가 포함되어 있다.
- 딥시크는 이를 통해 출력 품질을 크게 향상시켰다고 밝혔다.
비용 효율성과 성능 비교
- R1은 높은 성능을 제공하며, 딥시크의 API를 통해 제공된다.
- 특히, 비용은 o1 대비 90~95% 저렴하다는 강점이 있다.
- 이러한 비용 효율성은 많은 사용자들에게 매력적인 요소로 작용할 것이다.
R1-증류 모델군의 출시
- 딥시크는 하드웨어 효율성이 뛰어나지만 성능은 낮은 'R1-증류(Distillation)' 모델군도 오픈 소스로 공개하였다.
- 이 모델군에는 다음과 같은 모델들이 포함된다:
- R1-증류-큐원-1.5B
- R1-증류-큐원-7B
- R1-증류-라마-8B
- R1-증류-큐원-14B
- R1-증류-큐원-32B
- R1-증류-라마-70B
- 이 모델들은 R1에서 증류한 데이터를 기반으로 하여 개발되었다.
모델 다운로드 및 테스트 방법
- 현재 R1 시리즈는 허깅페이스에서 모델 가중치와 코드를 다운로드하거나 API를 사용할 수 있다.
- 또한, 딥시크 채팅 플랫폼을 통해 모델을 테스트해볼 수 있는 기회가 제공된다.
- 이러한 접근성은 사용자들이 모델을 쉽게 활용할 수 있도록 돕는다.