0. 개요Supervised Fine Tuning, 줄여서 SFT는 사전학습이 끝난 언어모델을 사람의 의도에 맞게 행동하도록 가르치는 단계다. 이 시점의 모델은 이미 언어 구조와 방대한 지식을 학습했지만, 사용자의 요청에 어떻게 반응해야 하는지에 대해서는 명확히 정렬되어 있지 않다. SFT의 목적은 새로운 지식을 대규모로 주입하는 것이 아니라, 모델의 출력 분포를 재구성해 유용하고 안전하며 구조화된 응답을 하도록 만드는 데 있다. 이를 위해 명시적인 지시문과 그에 대한 이상적인 응답으로 구성된 데이터셋을 사용해 지도학습을 수행한다. 개념적으로 SFT는 하나의 질문에 답한다. 이미 다음 토큰을 예측할 수 있는 모델에게, 사람이 무엇을 요청했을 때 어떤 종류의 토큰을 생성해야 하는지를 어떻게 가르칠 것인가이..