6.1 Sentiment Task: 감성 조절 능력 실험 (IMDb)논문 링크연도 : 20230. Abstract기존 RLHF(인간 피드백을 활용한 강화학습)은 복잡하고 한계가 있음간단한 classification loss 를 이용해 RLHF의 문제를 해결샘플링이나 복잡한 하이퍼파라미터 튜닝 없이도 인간의 선호도에 맞는 fine-tuning이 가능기존의 PPO 기반 RLHF보다 감정 제어 성능이 뛰어남 1. Introduction명확하지 않은 문서를 이해해야 하지만, 정확한 대답을 해야하함이진 분류 손실 함수(binary classification loss) 사용핵심 아이디어는, 보상 모델을 명시적으로 학습하지 않고도 최적의 정책(Policy)을 바로 도출할 수 있도록 선호 기반 확률모델(theoreti..