[LLM] DeepSeek-R1 논문 핵심내용 요약

자연어처리/LLM 논문 요약

[LLM] DeepSeek-R1 논문 핵심내용 요약

Suda_777 2025. 2. 2. 19:24

0. 개요

이전 글에서 DeepSeek 논문 리뷰를 먼저 작성하고,

이번 포스팅은 핵심 내용을 요약한 것이다.

RL, GRPO, 체인 오브 소트 데이터, 다단계 학습 파이프라인 (Multi-Stage Training Pipeline) 에 대해 정리해 보자

이전 글 링크

[LLM] DeepSeek-R1 논문 리뷰

논문을 읽게 된 배경연구 관련 설명(출처: CNN 뉴스, BBC 뉴스)중국의 인공지능 기업의 기술ChatGPT와 유사한 성능OpenAI, Google, Meta보다 훨씬 낮은 비용으로 제작됨이전보다 훨씬 적은 컴퓨팅 성능으

databoom.tistory.com

1. RL과 GRPO

1.1. 기존 Supervised Fine-Tuning (SFT) 방식

전통적으로 Supervised Fine-Tuning (SFT)은 사람이 레이블링한 데이터를 기반으로 모델을 학습하는 방식
즉, 사람이 제공한 정답이 있는 데이터셋을 사용하여 모델을 업데이트
하지만 추론(reasoning) 능력을 강화하는 데 있어 SFT만으로는 한계가 있다.

1.2. RL(Reinforcement Learning) 설명

RL을 활용하여 모델이 스스로 논리적 사고를 발전시킬 수 있도록 유도
DeepSeek에서는 GRPO (Group Relative Policy Optimization)라는 RL 기법 사용
사람이 레이블한 데이터가 필요 없음(모델이 스스로 데이터를 생성하고 비교하면서 학습)
모델이 스스로 생성한 답변들끼리 비교하여 상대적인 성능 차이를 평가하는 방식
즉, 강화학습이란 모델 학습 방식이 스스로 연습하고 평가하고 진화하는 것임

1.3. GRPO(Group Relative Policy Optimization) 특징

Critic 모델을 제거하여 계산 비용 절감

Critic 모델을 제거하여 계산 비용 절감 (기존 기법에서는 critic model을 사용함, Critic model은 보상을 담당하는 모델)
그룹 내 샘플 점수(group scores)를 활용해 성능을 평가함 (메모리 및 연산 비용이 낮아 효율적)

Group-based Advantage Estimation

RL에서 모델을 업데이트할 때, 특정 행동이 얼마나 유용했는지를 평가하는 것이 중요합니다. 이를 Advantage라고 함
동일한 질문에 대해 여러 개의 답변을 생성하고, 이들 간의 상대적인 점수를 비교하는 방식 사용
기존 RL에서는 “이 답변이 맞았나? 틀렸나?“를 평가하는 절대적인 보상(absolute reward) 방식을 사용. 그러나 DeepSeek에서는 절대적인 보상 값(reward)을 사용하는 것이 아니라 그룹 내 상대적인 우위를 기반으로 모델을 업데이트. 이 방식으로 점점 더 좋은 답변을 생성하도록 학습

KL-Divergence Penalty를 활용한 안정적인 학습

새로운 정책(policy)이 급격하게 변화하는 것을 방지하기 위해 KL-Divergence Penalty(KL 발산 패널티)를 적용

2. 체인 오브 소트 데이터(CoT, Chain of Thought)

장점

복잡한 문제 해결 능력 향상
더 강력한 AI 모델 훈련 가능
Explainability(설명 가능성) 향상

설명

문제 해결 과정을 단계별로 설명하는 데이터
일반적인 입력-출력 데이터와 달리, 사고 과정(thinking process)을 포함

예시

질문: 13 × 7 = ?
사고 과정: 
  - 먼저 10 × 7 = 70 을 계산한다.
  - 그 다음 3 × 7 = 21 을 계산한다.
  - 두 값을 더하면 70 + 21 = 91 이다.
최종 정답: 91

3. 다단계 학습 파이프라인 (Multi-Stage Training Pipeline)

여러 학습 단계를 거쳐 점진적으로 모델의 성능을 개선

단순히 한 번의 학습 과정으로 끝나는 것이 아니라, 각 단계마다 특정 목표를 설정하고, 이를 반복적으로 개선하는 방식

DeepSeek에서의 단계별 목적과 학습 방식

단계	학습 방식	목적
1단계	Cold-Start Fine-Tuning	초기 모델 생성 (Supervised Fine-Tuning)
2단계	Reasoning-Oriented Reinforcement Learning (RL)	RL로 reasoning 능력 강화
3단계	Rejection Sampling & Supervised Fine-Tuning	RL 결과를 반영한 SFT
4단계	Reinforcement Learning for all Scenarios	전반적인 성능 향상 및 정밀 조정

4. Distillation

큰 모델(Teacher Model)의 성능을 작은 모델(Student Model)로 전달

일반적인 모델 학습은 데이터와 정답(레이블)을 사용하여 진행

Distillation은 학습된 큰 모델(Teacher)에서 나온 출력값을 작은 모델(Student)에게 학습시키는 방식

즉, Teacher 모델의 예측 결과와 Student 모델의 예측 결과를 비교하여 학습한다.

5. 다음 글 안내

모델을 Pytorch를 통해 실행하는 방법은

다음 글에서 포스팅 하겠다.

링크

[LLM] DeepSeek 실행 방법 with Pytorch

0. 개요DeepSeek가 현재 상당한 이슈가 되고 있다.게다가 오픈소스로 Huggingface에 올라와 있어실행이 가능하다고 하니, 한번 실행해 보도록 하자. huggingface 링크 deepseek-ai/DeepSeek-R1 · Hugging FaceDeepSeek

databoom.tistory.com

저작자표시 비영리 변경금지

'자연어처리 > LLM 논문 요약' 카테고리의 다른 글

[LLM] DPO (Direct Preference Optimization) 논문 리뷰 (0)	2025.04.25
[LLM] EXAONE 3.5 논문 리뷰 (2)	2025.03.10
[LLM] DeepSeek 실행 방법 with Pytorch (0)	2025.01.28
[LLM] DeepSeek-R1 논문 리뷰 (5)	2025.01.28
[LLM] Google Gemini - 논문 요약 (3)	2024.09.11

현재글[LLM] DeepSeek-R1 논문 핵심내용 요약

인공지능 개발자 수다