0. 개요이전 글에서 DeepSeek 논문 리뷰를 먼저 작성하고,이번 포스팅은 핵심 내용을 요약한 것이다.RL, GRPO, 체인 오브 소트 데이터, 다단계 학습 파이프라인 (Multi-Stage Training Pipeline) 에 대해 정리해 보자 이전 글 링크 [LLM] DeepSeek-R1 논문 리뷰논문을 읽게 된 배경연구 관련 설명(출처: CNN 뉴스, BBC 뉴스)중국의 인공지능 기업의 기술ChatGPT와 유사한 성능OpenAI, Google, Meta보다 훨씬 낮은 비용으로 제작됨이전보다 훨씬 적은 컴퓨팅 성능으databoom.tistory.com 1. RL과 GRPO1.1. 기존 Supervised Fine-Tuning (SFT) 방식전통적으로 Supervised Fine-Tuning (S..