[LLM] DeepSeek-R1 논문 리뷰

자연어처리/LLM 논문 요약

[LLM] DeepSeek-R1 논문 리뷰

Suda_777 2025. 1. 28. 05:24

논문을 읽게 된 배경

연구 관련 설명(출처: CNN 뉴스, BBC 뉴스)

중국의 인공지능 기업의 기술
ChatGPT와 유사한 성능
OpenAI, Google, Meta보다 훨씬 낮은 비용으로 제작됨
이전보다 훨씬 적은 컴퓨팅 성능으로 제작
오픈소스로 공개

최근 DeepSeek-R1 으로인해, 미국 인공지능 회사들의 주가가 크게 떨어졌다.

저렴한 가격으로 높은 성능의 모델을 만들었기 때문이다.

게다가 OpenAI는 모델이 비공개인데, DeepSeek는 오픈소스이다!

DeepSeek를 다운받아 pytorch로 실행하는 글은 다음 글에서 확인해보자 (다음 글 링크)

[LLM] DeepSeek 실행 방법 with Pytorch

0. 개요DeepSeek가 현재 상당한 이슈가 되고 있다.게다가 오픈소스로 Huggingface에 올라와 있어실행이 가능하다고 하니, 한번 실행해 보도록 하자. huggingface 링크 deepseek-ai/DeepSeek-R1 · Hugging FaceDeepSeek

databoom.tistory.com

논문 링크

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

We introduce our first-generation reasoning models, DeepSeek-R1-Zero and DeepSeek-R1. DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a preliminary step, demonstrates remarkable reasonin

arxiv.org

HuggingFace 링크

deepseek-ai/DeepSeek-R1 · Hugging Face

DeepSeek-R1 Paper Link👁️ 1. Introduction We introduce our first-generation reasoning models, DeepSeek-R1-Zero and DeepSeek-R1. DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a prel

huggingface.co

0. Abstract

DeepSeek-R1-Zero (이전 모델)

강화학습(Reinforcement Learning - RL)을 이용해 훈련함.
지도 학습(SFT) 없이도 뛰어난 추론 능력
가독성 저하와 언어 혼합 문제 등의 한계

DeepSeek-R1(이번 연구에서 만든 모델)

multi-stage training, cold-start data 를 RL 이전 단계에서 사용함
OpenAI-o1-1217과 비슷한 수준의 추론 성능

1. Intoroduction

사후 학습(Post-Training)

적은 계산 자원을 사용하면서도 정확도를 높임
사회적 가치에 부합, 사용자 선호도에 맞춤 대답 가능

DeepSeek-R1-Zero

DeepSeek-V3-Base 를 기반으로 RL 만을 이용해 학습, 즉 처음부터 학습한게 아니라 Base model에서 추가 학습한 것임
강화학습(RL) : 언어 모델의 추론 능력을 향상
GRPO(Group Relative Policy Optimization) 프레임워크를 사용 (아래에 설명있음)
가독성 저하와 언어 혼합 문제

DeepSeek-R1 (이번 연구 모델)

DeepSeek-R1-Zero의 가독성 저하와 언어 혼합 문제 해결
기존 모델(DeepSeek-V3-Base)을 활용하여 SFT 및 RL을 통해 개선된 모델
소량의 초기 데이터(Cold-Start Data)와 다단계 학습 파이프라인(Multi-Stage Training pipeline)을 도입
- 초기 데이터를 수집해 모델을 미세 조정(fine-tunning)
- 강화학습(RL , Reinforcement Learning)을 수행
- RL이 수렴에 까까워 지면, 체크포인트에서 기각 샘플링(Rejection Sampling) 기법을 통해 새로운 지도학습(SFT) 데이터를 생성하고, 기존의 supervised data를 결합해 모델을 재학습
- 추가적인 RL 수행

DeepSeek-R1을 소형 밀집 모델로 증류하는 실험(큰 모델의 지식을 작은 모델의 지식으로 이전하는 작업)

DeepSeek-R1에서 Qwen2.5-32B 모델로 증류, RL 대비 성능 우수
대형 모델의 추론 패턴이 성능 개선의 핵심

1.1. Contributions

Post-Training : 대규모 강화학습(RL)

순수 강화학습(RL) 적용
- RL을 기반 모델에 적용
- 체인 오브 소트(CoT, chain-of-thought, 생각의 체인)를 탐구하며 복잡한 문제를 해결
- 자기 검증, 반성(reflection), 긴 CoT 생성
- SFT 없이 순수 RL만으로 LLM의 추론 능력을 향상시킬 수 있음을 입증한 최초의 연구

DeepSeek-R1 개발 파이프라인
- 두 단계의 RL과 두 단계의 SFT를 포함한 파이프라인
- RL 단계는 향상된 추론 패턴을 발견하고 인간의 선호에 맞추는 데 중점
- SFT 단계는 모델의 추론 및 비추론 능력의 기초(seed) 역할

증류(Distillation): 작은 모델도 강력할 수 있다.

대형 모델에서 발견된 추론 패턴을 소형 모델로 증류
소형 모델 자체적으로 RL을 통해 학습한 추론 패턴보다 더 나은 성능

1.2 평가 결과 요약

DeepSeek-R1의 성능: OpenAI-o1-1217을 약간 상회하거나 비슷
전문가 수준의 코딩 능력
이하 생략...

2. Approach

2.1. Overview

이전 연구들은 대규모 supervised data를 이용해 모델을 강화함.

본 연구에서는 대규모 강화학습(RL)을 통해 추론 능력을 크게 개선

소량의 초기 supervised data를 포함하면 성능이 더욱 향상

DeepSeek-R1-Zero: RL을 기반 모델에 직접 적용한 사례.
DeepSeek-R1: 수천 개의 긴 체인 오브 소트(CoT) 데이터를 활용해 미세 조정된 체크포인트에서 RL을 시작한 모델.

2.2 DeepSeek-R1-Zero: 기반 모델에서의 강화학습

2.2.1. Reinforcement Learning Algorithm (강화학습 알고리즘)

GRPO(Group Relative Policy Optimization)

강화학습의 비용을 절감하기 위해 도입된 기법
일반적으로 정책 모델과 동일한 크기의 크리틱 모델을 사용하는 대신, 그룹 점수를 통해 기준(baseline)을 추정

작동 방식

각 질문 $q$에 대해, 기존 정책 $ \pi_{\theta_{old}} $ 에서 그룹 출력 $ {o_1, o_2, ..., o_G} $ 를 샘플링한다.
정책 모델 $ \pi_\theta $ 는 아래 목적함수 $ J_{GRPO}(\theta) $ 를 최대화 하는 방향으로 최적화 된다.
목적함수는 정책 비율을 $ 1- \epsilon $ 과 $ 1- \epsilon $ 사이로 제한하는 클리핑 기법을 포함하며, KL 발산 패널티 $ D_{KL} $ 를 통해 정책 안정성을 유지한다.

목적함수

$$
J_{GRPO}(\theta) = \mathbb{E}\left[
    \frac{1}{G} \sum_{i=1}^{G}
    \min\left(
        \frac{\pi_\theta(o_i \mid q)}{\pi_{\theta_{\text{old}}}(o_i \mid q)} A_i,
        \text{clip}\left(
            \frac{\pi_\theta(o_i \mid q)}{\pi_{\theta_{\text{old}}}(o_i \mid q)},
            1 - \epsilon,
            1 + \epsilon
        \right) A_i
    \right)
\right]
- \beta D_{KL}(\pi_\theta \, \| \, \pi_{\text{ref}})
$$

용어 정리

$ \mathbb{E} $ : 기댓값.
$ \sum_{i=1}^{G} $ : $ i=1 $ 부터 $G \) 까지 합산.
$ \min(...) $ : 최소값 계산.
$ \text{clip}(x, a, b) $ : $ x $ 를 $ a $ 와 $ b $ 사이로 제한.
$ \pi_\theta(o_i \mid q) $ : 정책 함수 $ \pi_\theta $, 새로운 정책이 주어진 질문(\ q \) 에서 출력 (\ o_i \) 를 선택할 확률
$ \pi_{\theta_{\text{old}}}(o_i \mid q) $ : 이전 정책에서 주어진 질문(\ q \) 에서 출력 (\ o_i \) 를 선택할 확률
$ D_{KL}$: KL 발산 패널티

수식해석

기댓값을 계산한 것에 패널티를 빼줌
기댓값: 최소값의 평균
: 클리핑 기법 - 학습 과정에서 이 비율이 너무 크거나 작아지는 것을 방지
$\frac{\pi_\theta(o_i \mid q)}{\pi_{\theta_{\text{old}}}(o_i \mid q)} $ ,정책 비율 (Policy Ratio) : 새로운 정책과 기존 정책 간의 비율

KL 발산 패널티

$$
D_{KL}(\pi_\theta \, \| \, \pi_{\text{ref}}) =
\sum_{o_i} \left( \pi_{\text{ref}}(o_i \mid q)
\log \frac{\pi_\theta(o_i \mid q)}{\pi_{\text{ref}}(o_i \mid q)} - 1 \right)
$$

$\sum_{o_i}$: $o_i$에 대한 합산.
$\pi_{\text{ref}}(o_i \mid q)$: 참조 정책 $\pi_{\text{ref}}$의 확률.
$\pi_\theta(o_i \mid q)$: 현재 정책 $\pi_\theta$의 확률.
$\frac{\pi_\theta(o_i \mid q)}{\pi_{\text{ref}}(o_i \mid q)}$: 두 확률의 비율.

수식해석

Log의 분자와 분보 차이가 클수록 값이 커지고, 비슷하면 값이 작아짐
- log(10000/1) = 4
- log(1/1) = 0
기존정책 x (차이가 클수록 큰값, 비슷하면 작은값)
위 내용을 모두 더함

이득(Advantage)

$$
A_i = \frac{r_i - \text{mean}(\{r_1, r_2, \dots, r_G\})}
{\text{std}(\{r_1, r_2, \dots, r_G\})}
$$

$r_i$: 개별 보상 값.
$\{r_1, r_2, \dots, r_G\}$: 보상 값들의 집합.

2.2.2. Reward Modeling (보상 모델링)

Reward(보상)은 강화학습에서 최정화 방향을 결정함.

rule-based reward system (규칙 기반 보상 시스템) 사용함

주요 보상 유형은 아래와 같음

정확도 보상 (Accuracy Rewards)

모델의 응답이 정확한지를 평가
수학 문제와 같이 결정적인 결과를 요구하는 경우, 모델은 특정 형식(예: 상자 안에 최종 답변)을 따라야 하며, 이를 통해 규칙 기반으로 정확성을 검증
LeetCode 문제의 경우, 컴파일러를 사용하여 사전에 정의된 테스트 케이스를 기반으로 피드백을 생성

형식 보상 (Format Rewards)

모델이 사고 과정을 "<think>"와 "</think>" 태그 사이에 작성하도록 강제하는 보상 모델을 활용

보상에서 neural reward model(신경 보상 모델)은 사용하지 않음.

보상 해킹(reward hacking)에 취약할 수 있으며, 보상 모델을 재학습하려면 추가 자원이 필요하고 훈련 파이프라인이 복잡해짐

2.2.3 훈련 템플릿 (Training Template)

구조적 요구사항

모델은 먼저 추론 과정(reasoning process)을 생성한 뒤, 최종 답변(final answer)을 출력해야 한다.
템플릿은 이와 같은 형식을 따르도록 모델에 요구한다.

내용에 대한 제약 최소화

반사적 추론(reflective reasoning)을 강제하거나 특정 문제 해결 전략을 장려하는 등, 내용에 대한 특정 편향(content-specific biases)은 의도적으로 배제했다.
이는 모델이 다양한 방식으로 문제를 해결할 수 있도록 유연성을 보장

2.2.4. Performance, Self-evolution Process and Aha Moment of DeepSeek-R1-Zero

평가는 생략...

2.3. DeepSeek-R1: Reinforcement Learning with Cold Start

2.3.1. Cold Start

초기 강화학습(RL) 단계에서 발생할 수 있는 불안정을 방지하기 위해, 소량의 긴 체인 오브 소트(CoT) 데이터를 수집 및 생성하여 모델을 미세 조정. 이를 통해 RL의 초기 모델로 사용

데이터 수집 방법

긴 CoT 예제를 활용한 소량 샷 프롬프팅(few-shot prompting)
반사와 검증을 포함한 자세한 답변을 생성하도록 직접 프롬프트
DeepSeek-R1-Zero의 출력을 읽기 좋은 형식으로 변환
사람 검토자(human annotators)가 후처리하여 결과를 정제

2.3.2. Reasoning-oriented Reinforcement Learning (추론 중심 강화학습)

언어 일관성을 보장하는 보상을 도입

모델이 추론 작업에서 수렴(convergence)에 도달할 때까지 RL 훈련

2.3.3. Rejection Sampling and Supervised Fine-Tuning

추론 데이터 (Reasoning Data)

RL 체크포인트에서 기각 샘플링(rejection sampling)을 통해 추론 프롬프트와 추론 경로(trajectory) 데이터를 생성.

비추론 데이터 (Non-Reasoning Data)

작성, 사실 기반 QA, 자기 인식(self-cognition), 번역 등
DeepSeek-V3의 SFT 데이터셋을 재활용하고, 특정 비추론 작업에 대해 DeepSeek-V3를 사용해 추론 경로(CoT)를 생성 후 질문에 답변.
단순 질의(예: "안녕")에 대해서는 CoT 없이 직접 응답

2.3.4. Reinforcement Learning for all Scenarios

모델을 인간의 선호도에 더욱 잘 맞추기 위해 2차 강화학습(RL) 단계를 도입

인간 선호도를 반영하기 위해 보상 모델을 사용.

2.4. Distillation: Empower Small Models with Reasoning Capability

소형 모델에 추론 능력 부여함.

DeepSeek-R1으로 제작한 약 80만 개의 데이터를 활용해 Qwen과 Llama 같은 오픈소스 모델을 직접 미세 조정

3. Experiment

생략

4. Discussion

생략

5. Conclusion, Limitations, and Future Work

결론: 성과가 좋았다.

앞으로 연구 방향 : 대답 못하는 부분 성능 개선

논문을 읽고 나서 느낌 점

일부 분야에서 전문가 수준의 LLM을 스타트업이 만들었다는 연구결과를 통해

앞으로 LLM은 누구나 사용하고, 만들 수 있는 세상이 곧 다가올 것으로 보인다.

특히, GPT 출시로 인해 대기업이 거의 독점하고 있던 LLM 시장에서
경쟁력 있는 스타트업이 출현했다는 것은

언어 관련 인공지능 개발자에게는 큰 기회가 될 수 있을 것이라고 생각한다.

gpt 3.5 등장 이후

gpt를 이길 수 있는 회사 자체가 등장하고 있지 않았기 때문에

많은 연구자, 개발자들은 GPT API를 빌려 쓸 뿐

자체 개발을 할 수 없는 현실에 처했기 때문이다.

그 동안에는 LLM의 개발비가 천문학적으로 크기 때문에

대기업 중에서도 일부만 연구를 했기 때문에

LLM 관련 연구를 '일'로 하기 위해서는

박사 학위가 없다면 쉽지 않았다.

그렇지만, 저렴한 연구 비용으로

LLM 연구가 가능해 진다면

GPT로 인해 사라졌던 언어 관련 인공지능 프로젝트 들이 다시 열려

많은 사람들이 연구에 도전할 수 있는 기회가 올 수 있지 않을까

기대할 수 있겠다.

다음 글은 논문 핵심 내용 요약이다.

해당 글이 이해가 잘 되지 않는다면 도움이 될 것이다.

논문 핵심내용 요약 링크

[LLM] DeepSeek-R1 논문 핵심내용 요약

0. 개요이전 글에서 DeepSeek 논문 리뷰를 먼저 작성하고,이번 포스팅은 핵심 내용을 요약한 것이다.RL, GRPO, 체인 오브 소트 데이터, 다단계 학습 파이프라인 (Multi-Stage Training Pipeline) 에 대해 정리해

databoom.tistory.com

저작자표시 비영리 변경금지 (새창열림)

'자연어처리 > LLM 논문 요약' 카테고리의 다른 글

[LLM] DeepSeek-R1 논문 핵심내용 요약 (4)	2025.02.02
[LLM] DeepSeek 실행 방법 with Pytorch (1)	2025.01.28
[LLM] Google Gemini - 논문 요약 (4)	2024.09.11
[LLM] Llama2 - 논문 요약 (2) (3)	2024.09.11
[LLM] Llama2 모델 (1) (4)	2024.09.11

현재글[LLM] DeepSeek-R1 논문 리뷰

인공지능 개발자 수다