1. 개요TRL은 Huggingface에서 제공하는학습 도구이다. 세가지 단계에 걸쳐 학습을 진행한다.학습 설정 (TrainingArguments)Trainer 설정학습 실행 지금 LLM 파인튜닝 실무에서 필요한 거의 모든 알고리즘이 TRL에 포함되어 있다고 보면 된다. (출처: TRL 홈페이지)학습 방식목적필요 데이터난이도주요 사용처SFT기본 성능 + 말투 튜닝입력/출력 쌍매우 쉬움모든 파인튜닝의 기본DPOReward 없이 alignmentchosen vs rejected쉬움말투/안전성/품질 개선ORPODPO보다 단순한 RLHF 대체preference매우 쉬움빠른 alignmentPPO전통적 RLHFreward model + environment어려움고급 RLHFGRPO최신 강화형 preference ..