라벨이 오픈인 게시물 표시

딥시크 'R1' 모델 출시

 딥시크 'R1' 모델 출시 - 딥시크는 오픈AI의 'o1' 모델과 경쟁하는 추론 모델 ‘R1’ 시리즈를 오픈 소스로 공개하였다. - 이 모델은 **20일(현지시간)**에 공식 출시되었으며, R1, R1-제로(R1-Zero), R1-증류(R1-Distill) 등의 모델이 포함된다. - 딥시크-V3를 기반으로 하여 개발된 이 모델들은 세계 최고의 오픈 소스 모델로 평가받고 있다. R1 모델의 구조와 특징 - R1과 R1-제로는 각각 6710억 개의 매개변수를 포함하고 있다. - 이 모델은 전문가 혼합(MoE) 아키텍처를 채택하여, 전체 매개변수 중 약 340억 개만 활성화되도록 설계되었다. - 이러한 설계는 추론 비용과 메모리 사용량을 줄이면서도 높은 성능을 유지하는 데 기여한다. 추론 기술의 학습 방법 - 추론 특화 LLM은 일반적으로 **강화 학습(RL)**과 지도 미세조정(SFT) 두 가지 방법으로 학습된다.   - RL: 시행착오를 통해 AI가 작업을 수행하도록 훈련하는 방식이다.   - SFT: 작업 예시를 제공하여 출력 품질을 향상시키는 방식이다. - 딥시크는 R1-제로를 개발하는 과정에서 SFT를 생략했음에도 불구하고, 주요 추론 기술을 성공적으로 구현하였다. R1-제로의 성능과 한계 - R1-제로는 **추론 벤치마크(AIME 2024)**에서 o1과 비슷한 성능을 기록하였다. - 그러나 출력 품질에 한계가 있었으며, 다음과 같은 문제점이 발생하였다:   - 응답의 반복   - 낮은 가독성   - 언어 혼합 문제 - 이러한 문제를 해결하기 위해 딥시크는 R1 모델을 개발하였다. R1 모델의 개선 사항 - R1은 R1-제로의 개선 버전으로, 수정된 훈련 워크플로우를 적용하였다. - 이 훈련 워크플로우에는 R1-제로 개발 시 생략했던 SFT가 포함되어 있다. - 딥시크는 이를 통해 출력 품질을 크게 향상시켰다고 밝혔다. 비용 효율성과 성능 비교 - R1은 높은 성능을 제공하며, 딥시크의 API를 통해 ...