목차
0. 개요
이전 글에서 DeepSeek 논문 리뷰를 먼저 작성하고,
이번 포스팅은 핵심 내용을 요약한 것이다.
RL, GRPO, 체인 오브 소트 데이터, 다단계 학습 파이프라인 (Multi-Stage Training Pipeline) 에 대해 정리해 보자
[LLM] DeepSeek-R1 논문 리뷰
논문을 읽게 된 배경연구 관련 설명(출처: CNN 뉴스, BBC 뉴스)중국의 인공지능 기업의 기술ChatGPT와 유사한 성능OpenAI, Google, Meta보다 훨씬 낮은 비용으로 제작됨이전보다 훨씬 적은 컴퓨팅 성능으
databoom.tistory.com
1. RL과 GRPO
1.1. 기존 Supervised Fine-Tuning (SFT) 방식
- 전통적으로 Supervised Fine-Tuning (SFT)은 사람이 레이블링한 데이터를 기반으로 모델을 학습하는 방식
- 즉, 사람이 제공한 정답이 있는 데이터셋을 사용하여 모델을 업데이트
- 하지만 추론(reasoning) 능력을 강화하는 데 있어 SFT만으로는 한계가 있다.
1.2. RL(Reinforcement Learning) 설명
- RL을 활용하여 모델이 스스로 논리적 사고를 발전시킬 수 있도록 유도
- DeepSeek에서는 GRPO (Group Relative Policy Optimization)라는 RL 기법 사용
- 사람이 레이블한 데이터가 필요 없음(모델이 스스로 데이터를 생성하고 비교하면서 학습)
- 모델이 스스로 생성한 답변들끼리 비교하여 상대적인 성능 차이를 평가하는 방식
- 즉, 강화학습이란 모델 학습 방식이 스스로 연습하고 평가하고 진화하는 것임
1.3. GRPO(Group Relative Policy Optimization) 특징
Critic 모델을 제거하여 계산 비용 절감
- Critic 모델을 제거하여 계산 비용 절감 (기존 기법에서는 critic model을 사용함, Critic model은 보상을 담당하는 모델)
- 그룹 내 샘플 점수(group scores)를 활용해 성능을 평가함 (메모리 및 연산 비용이 낮아 효율적)
Group-based Advantage Estimation
- RL에서 모델을 업데이트할 때, 특정 행동이 얼마나 유용했는지를 평가하는 것이 중요합니다. 이를 Advantage라고 함
- 동일한 질문에 대해 여러 개의 답변을 생성하고, 이들 간의 상대적인 점수를 비교하는 방식 사용
- 기존 RL에서는 “이 답변이 맞았나? 틀렸나?“를 평가하는 절대적인 보상(absolute reward) 방식을 사용. 그러나 DeepSeek에서는 절대적인 보상 값(reward)을 사용하는 것이 아니라 그룹 내 상대적인 우위를 기반으로 모델을 업데이트. 이 방식으로 점점 더 좋은 답변을 생성하도록 학습
KL-Divergence Penalty를 활용한 안정적인 학습
- 새로운 정책(policy)이 급격하게 변화하는 것을 방지하기 위해 KL-Divergence Penalty(KL 발산 패널티)를 적용
2. 체인 오브 소트 데이터(CoT, Chain of Thought)
장점
- 복잡한 문제 해결 능력 향상
- 더 강력한 AI 모델 훈련 가능
- Explainability(설명 가능성) 향상
설명
- 문제 해결 과정을 단계별로 설명하는 데이터
- 일반적인 입력-출력 데이터와 달리, 사고 과정(thinking process)을 포함
예시
질문: 13 × 7 = ?
사고 과정:
- 먼저 10 × 7 = 70 을 계산한다.
- 그 다음 3 × 7 = 21 을 계산한다.
- 두 값을 더하면 70 + 21 = 91 이다.
최종 정답: 91
3. 다단계 학습 파이프라인 (Multi-Stage Training Pipeline)
여러 학습 단계를 거쳐 점진적으로 모델의 성능을 개선
단순히 한 번의 학습 과정으로 끝나는 것이 아니라, 각 단계마다 특정 목표를 설정하고, 이를 반복적으로 개선하는 방식
DeepSeek에서의 단계별 목적과 학습 방식
단계 | 학습 방식 | 목적 |
1단계 | Cold-Start Fine-Tuning | 초기 모델 생성 (Supervised Fine-Tuning) |
2단계 | Reasoning-Oriented Reinforcement Learning (RL) | RL로 reasoning 능력 강화 |
3단계 | Rejection Sampling & Supervised Fine-Tuning | RL 결과를 반영한 SFT |
4단계 | Reinforcement Learning for all Scenarios | 전반적인 성능 향상 및 정밀 조정 |
4. Distillation
큰 모델(Teacher Model)의 성능을 작은 모델(Student Model)로 전달
일반적인 모델 학습은 데이터와 정답(레이블)을 사용하여 진행
Distillation은 학습된 큰 모델(Teacher)에서 나온 출력값을 작은 모델(Student)에게 학습시키는 방식
즉, Teacher 모델의 예측 결과와 Student 모델의 예측 결과를 비교하여 학습한다.
5. 다음 글 안내
모델을 Pytorch를 통해 실행하는 방법은
다음 글에서 포스팅 하겠다.
[LLM] DeepSeek 실행 방법 with Pytorch
0. 개요DeepSeek가 현재 상당한 이슈가 되고 있다.게다가 오픈소스로 Huggingface에 올라와 있어실행이 가능하다고 하니, 한번 실행해 보도록 하자. huggingface 링크 deepseek-ai/DeepSeek-R1 · Hugging FaceDeepSeek
databoom.tistory.com
'자연어처리 > LLM 모델' 카테고리의 다른 글
[LLM] EXAONE 3.5 논문 리뷰 (2) | 2025.03.10 |
---|---|
[LLM] DeepSeek 실행 방법 with Pytorch (0) | 2025.01.28 |
[LLM] DeepSeek-R1 논문 리뷰 (5) | 2025.01.28 |
[LLM] Google Gemini - 논문 요약 (3) | 2024.09.11 |
[LLM] Llama2 - 논문 요약 (2) (3) | 2024.09.11 |