SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training 논문 리뷰

김호진

May 08, 2025

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

선결론

SSL pre-training이후 post training 방법으로 SFT와 RL의 차이를 비교한다.

In-distribution에 대해서는 SFT도 성능이 좋았지만(더 좋았다) OOD data에 대한 generalization 성능은 RL이 명백히 더 높다.

SSL위에 바로 RL을 하면 정답을 틀리는게 아니라 출력 format 자체를 제대로 뱉지 못했다. 따라서 SSL위에 일정 수준의 SFT는 필수적이다.

RL로 더 오래 학습할 수록 inference time verification step이 늘어남에 따른 성능 향상 정도도 더 높다.

현재 많은 large model들의 학습 방식이 어느정도 일관성을 보이고 있다.

self-supervised pre-training → post training

RL post-training의 필요성에 대해서 알고싶다.

(https://nonint.com/2025/03/16/the-paradigm/ 여기서도 같은 말을 한다.)

이거, noint, Deepseek, LLama3

LLM : LLAMA3, Deepseek

Audio : AudioBox

Image :

Video :

SFT와 RL은 foundation model을 학습할 때 주로 사용되는 두가지 post-training 방법이다.

하지만, model generalization에 있어 각각의 역할은 여전히 명확히 설명된건 없다. 본 논문에서는 text/visual modal에서 SFT와 RL의 generalization/memorization 성능을 비교해본다.

text에서의 실험을 위해 arithmetic reasoning card game을 설계하고 사용한다. visual을 위해서는 real-world navigation(V-IRL) 환경에서 실험한다. for unseen variants.

선결론 : outcome-based reward로 학습한 RL의 경우 text/visual 둘 모두 잘 generalizeation했고, SFT는 학습 데이터를 재현하고 OOD 데이터에서는 잘못했다.

모델이 하는 행동이 training data를 잘 외운건지, novel task variants에도 적용되는 generalizable principle을 잘 배운건지를 구분해서 판단하기위해 노렷했다.

Text - GeneralPoints 카드게임 : text로 주어진 규칙을 배운 뒤 변형된 규칙에 대해서도 잘 적용하는지를 보았다.

4장의 카드를 준 뒤 한번씩만 사용해서 target number를 계산하게 한다.

VLM - V-IRL(real-world navigation task) : 하나를 배웠을 때 시각적으로 약간씩 달라져도 배운걸 잘 적용하는지를 보았다.

spatial reasoning capabilities가 핵심

RL 학습은 multi-step RL framework를 사용(from https://arxiv.org/pdf/2405.10292) - 백본 모델이 SFT 학습 후 RL로 추가 학습

While RL exhibits superior generalization compared to SFT, we show that SFT is still helpful for stabilizing the model’s output format, enabling RL to achieve its performance gains. Last but not least, we observe that scaling up the inference time compute by increasing the number of maximal steps leads to better generalization.

마지막 문장도 시사하는 바가 꽤 있는 듯하다.

LIMA 논문도 궁금(https://moon-walker.medium.com/리뷰-meta-ai의-논문-lima-less-is-more-for-alignment-결국-llm의-pre-training이-가장-중요하다-f3c9ea885f5a)

post training에 SFT만 해도(LLM에서, 특별한 목적을 가진 1k개의 프롬프트 만으로 추가학습) 나름 RL로 한거처럼?(성능 차이는 꽤 있지만) alignment를 한다 → 이건 대부분의 능력은 SSL으로 학습되고, post training은 간단한 style alignment 프로세스라고 주장(여기서는 단순 LLM(no instruction finetuning) 위에 학습하는걸 의미)

현재의 논문에서는 LIMA를

Furthermore, LIMA (Zhou et al., 2024a) shows that supervised fine-tuning acts as a “format teacher” effectively adapting the model’s responses to a desired format while leveraging the capabilities of pre-trained LLMs.

라고 언급한다.

이에 반해 RL은 Human preference 혹은 특정한 태스크를 풀도록 하는데 활용되었다.

Memorization and generalization in LLM/VLM

LLM에서, training data를 그대로 뱉으면 memorization이라고 볼 수 있다. 반면 일반화는 모델의 output distribution과 학습 데이터의 분포 간의 차이를 의미한다.

이전 연구들에서는 LLM이 간단하고 지식 자체가 필요한 태스크는 오버피팅을 잘하고, 복잡하고 추론이 필요한 문제에 대해서는 generalization을 잘한다고 말했다.

Scaling up inference-time compute

최근의 연구들은 모델 성능 향상을 위해 inference-time 연산을 스케일업 하는데 집중한다.

CoT, ToT 같은 논문에서는 마지막 답을 뱉기 전에 중간 생각을 길게 뱉도록해서 성능을 높였다.

OpenAI o1과 Deepseek를 봐도 그렇다.

본 연구에서도 이걸 두가지 방법으로 반영한다.