SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training 논문 리뷰
김호진's avatar
May 08, 2025
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training
선결론
SSL pre-training이후 post training 방법으로 SFT와 RL의 차이를 비교한다.
  1. In-distribution에 대해서는 SFT도 성능이 좋았지만(더 좋았다) OOD data에 대한 generalization 성능은 RL이 명백히 더 높다.
  1. SSL위에 바로 RL을 하면 정답을 틀리는게 아니라 출력 format 자체를 제대로 뱉지 못했다. 따라서 SSL위에 일정 수준의 SFT는 필수적이다.
  1. RL로 더 오래 학습할 수록 inference time verification step이 늘어남에 따른 성능 향상 정도도 더 높다.
 
현재 많은 large model들의 학습 방식이 어느정도 일관성을 보이고 있다.
self-supervised pre-training → post training
RL post-training의 필요성에 대해서 알고싶다.
(https://nonint.com/2025/03/16/the-paradigm/ 여기서도 같은 말을 한다.)
이거, noint, Deepseek, LLama3
 
  • LLM : LLAMA3, Deepseek
  • Audio : AudioBox
  • Image :
  • Video :
 
 

SFT와 RL은 foundation model을 학습할 때 주로 사용되는 두가지 post-training 방법이다.
하지만, model generalization에 있어 각각의 역할은 여전히 명확히 설명된건 없다. 본 논문에서는 text/visual modal에서 SFT와 RL의 generalization/memorization 성능을 비교해본다.
text에서의 실험을 위해 arithmetic reasoning card game을 설계하고 사용한다. visual을 위해서는 real-world navigation(V-IRL) 환경에서 실험한다. for unseen variants.
선결론 : outcome-based reward로 학습한 RL의 경우 text/visual 둘 모두 잘 generalizeation했고, SFT는 학습 데이터를 재현하고 OOD 데이터에서는 잘못했다.
 
모델이 하는 행동이 training data를 잘 외운건지, novel task variants에도 적용되는 generalizable principle을 잘 배운건지를 구분해서 판단하기위해 노렷했다.
  • Text - GeneralPoints 카드게임 : text로 주어진 규칙을 배운 뒤 변형된 규칙에 대해서도 잘 적용하는지를 보았다.
    • 4장의 카드를 준 뒤 한번씩만 사용해서 target number를 계산하게 한다.
  • VLM - V-IRL(real-world navigation task) : 하나를 배웠을 때 시각적으로 약간씩 달라져도 배운걸 잘 적용하는지를 보았다.
    • spatial reasoning capabilities가 핵심
 
RL 학습은 multi-step RL framework를 사용(from https://arxiv.org/pdf/2405.10292) - 백본 모델이 SFT 학습 후 RL로 추가 학습
 
While RL exhibits superior generalization compared to SFT, we show that SFT is still helpful for stabilizing the model’s output format, enabling RL to achieve its performance gains. Last but not least, we observe that scaling up the inference time compute by increasing the number of maximal steps leads to better generalization.
마지막 문장도 시사하는 바가 꽤 있는 듯하다.
 
notion image
 
post training에 SFT만 해도(LLM에서, 특별한 목적을 가진 1k개의 프롬프트 만으로 추가학습) 나름 RL로 한거처럼?(성능 차이는 꽤 있지만) alignment를 한다 → 이건 대부분의 능력은 SSL으로 학습되고, post training은 간단한 style alignment 프로세스라고 주장(여기서는 단순 LLM(no instruction finetuning) 위에 학습하는걸 의미)
 
현재의 논문에서는 LIMA를
Furthermore, LIMA (Zhou et al., 2024a) shows that supervised fine-tuning acts as a “format teacher” effectively adapting the model’s responses to a desired format while leveraging the capabilities of pre-trained LLMs.
라고 언급한다.
이에 반해 RL은 Human preference 혹은 특정한 태스크를 풀도록 하는데 활용되었다.
 
Memorization and generalization in LLM/VLM
LLM에서, training data를 그대로 뱉으면 memorization이라고 볼 수 있다. 반면 일반화는 모델의 output distribution과 학습 데이터의 분포 간의 차이를 의미한다.
이전 연구들에서는 LLM이 간단하고 지식 자체가 필요한 태스크는 오버피팅을 잘하고, 복잡하고 추론이 필요한 문제에 대해서는 generalization을 잘한다고 말했다.
 
Scaling up inference-time compute
최근의 연구들은 모델 성능 향상을 위해 inference-time 연산을 스케일업 하는데 집중한다.
CoT, ToT 같은 논문에서는 마지막 답을 뱉기 전에 중간 생각을 길게 뱉도록해서 성능을 높였다.
OpenAI o1과 Deepseek를 봐도 그렇다.
 
본 연구에서도 이걸 두가지 방법으로 반영한다.
  1. multi-turn RL formulation - 모델이 스스로 에러를 진단하고 수정하도록 하는 - 을 활용한다.
  1. verification steps maximum 값을 늘려서 RL generalization을 높였다.
여기서 말하는 verification이 뭘까?
 
VLM
이전의 VLM이 대학교 시험 문제, 공간 지각력에서는 좋은 성능을 보인데에 비해 시각적 인지의 영역에서는 한계를 보였다.
이전에는 visual encoder를 여러개 사용하거나 high quality SFT 데이터를 만드는 등의 방법을 시도했지만 우리는 RL을 활용한다.
 
V - discrete and finite vocabulary space
text input, output - 각각
RGB image - O
→ VLM에서 S :=
action space A :=
VER : 가 verifier. output을 평가하고 reward를 계산 along with textual information - 부가적인 검증 텍스트 정보.
즉, 생성도니 output을 평가해서 리워드를 주고, 평가 이유를 텍스트로도 같이 제공한다.
→ 이걸 사용해서 PPO 방식으로 학습
 
Text - General Points Environment
숫자 카드 4개와 숫자를 주고, 한번씩만 사용해서 어떻게 연산을 해야 그 숫자를 만들 수 있는지 수식을 뱉도록 한다(숫자 카드는 텍스트로 줄 수도, 이미지로 줄 수도 있다.)
generalization 성능을 평가하기 위해서, J, Q, K 카드를 각각 11, 12, 13로 사용해서 답을 내도록 테스트한다(학습 시에는 전부 10으로). 이미지 인지 능력도 보기위해 카드 색을 다른 색으로 제공해서 문제를 풀게한다.
 
notion image
notion image
 
V-IRL은?
목표는 공간 정보를 포함한 instruction을 바탕으로 시작 지점으로부터 목표 지점을 찾아가는 것
notion image
  • 입력: 현재 시점의 시각 관찰(Street View 이미지 4방향) + 자연어로 된 복수 문장의 이동 지시
  • 출력: 정해진 액션 공간 내에서 한 단계 행동 선택
  • 도전 요소
    • 시각적으로 특정 장소(랜드마크)를 인식해야 하고
    • 언어로 된 복잡한 순차적 지시를 해석해야 하며
    • 이를 바탕으로 올바른 행동을 선택해야 함
  • 룰 variants : 뉴욕으로만 학습하고 다른 도시로 테스트
 
 
 

Results

RL generalizes, SFT memorizes.
As illustrated in Figure 5, RL consistently improves OOD performance on all tasks, including both unimodal (LLM) and multimodal (VLM).
 
notion image
notion image
 
RL은 모든 OOD에 대해서 성능 향상, SFT는 모두 하락
 
notion image
 
notion image
또 중요한 것 중 하나 : RL은 scaling 할수록 성능이 좋아졌고, SFT는 안좋아졌다.
 
그렇다고 Llama에 바로 RL로 학습하면 아예 수렴하지 않고 어긋나버린다.
 
notion image
학습을 더 할수록, verification step의 효과도 더 잘 받는다.
 
기준을 GFLOPs로 뒀다.
 
한계
  1. GP-VL의 경우, SFT가 in-distribution 자체도 실패했다.
  1. RL만으로 하면 항상 실패했다. RL 자체도 충분히 SFT로 학습한 위에 진행함.
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Share article
Subscribe to our newsletter

Kim Hojin