많은 web data를 가지고 pe-training후 fine-tuning하는 접근이 효과를 보이고 있다. 하지만 RL에서는 아직 예시가 없다.
그 이유는 video 데이터는 많지만, 그걸 변화시키는 labeled action이 없기 때문이다. ( reward label도 없긴하다. )
따라서 video(= state)만을 가지고 action latent를 만드는 모델을 만들어 pre-training model로 사용하게한다.
such latent policies accurately capture the observed expert’s behavior. 쉽게 expert-level의 폴리시를 학습할 수 있다.
기존의 연구들 :
우선, 두개의 연속된 observation 사이의 action을 예측하는 inverse dynamics model을 학습한다.
→ action label 데이터가 필요하다.
그리고 이 IDM을 사용해서 action label이 없는 많은 양의 순수 비디오 데이터에 action label을 추가한다.
근데 이러면 처음에 action label 데이터가 어느정도 필요하다. LAPO는 전혀 필요하지 않음.
LAPO의 IDM은 true action이 아니라 latent action을 예측하게된다. latent action에 담긴 정보는 observed transition을 설명하는 무언가가 된다.
그걸 위해서 FDM도 학습한다 - o_t와 latent action t를 입력으로 받아서 o_t+1을 예측하는 모델.
IDM은 o_t+1을 보는데 그냥 이 정보를 FDM한테 넘겨줘버리는 형태가 되면 어떡하지? → latent action을 information bottleneck으로(고도로 압축시켜서 - highly compressed encoding of state transitions) 만들어서 그걸 방지한다.
학습은 Procgen Benchmark안의 16개 게임으로 했다. expert-level 게임 플레이 영상은 있고, action은 없음.
그렇게 했을 때 학습된 latent action space가 true action space와 비슷하게 클러스터링이 되는걸 보였고, 이건 관측만으로 유의미한 정보를 뽑아냈다는걸 의미한다.

단순히 latent action을 뽑는 것에서 그치지 않고 위에다가 IDM으로 latent action을 만들어서 넣고, 이걸 사용해서 behavior cloning을 해서 latent-action policy를 학습했다.
그리고 policy가 예측하는 latent action을 true action space로 바꿔서(latent → action decoder?) 그걸 사용.
기존에 PPO로 4M step 학습해야하는 것에 대비, 200개 정도의 labeled transition 만으로 성능을 했다. extremely data-efficient.
Related work
ILPO
- LAPO와 다르게
latent policy로 ot에서 discrete action을 예측하고
ot + action으로 ot+1을 예측하는 FDM을 next-state prediction error만으로 학습한다. (FDM만 학습)
discrete한 action으로 학습하게 되면 그 action의 수가 적어지고 mode collapse에 빠질 확률이 높다.
그리고 ot - ot+1 차이만으로 학습하면 중간 action이 잘못되었더라도 loss는 내려가는 상황이 있을 수 있다는 점에서 잘못 설계되었다.
FICC
Background
- RL
- Learning from Observations
action이 없는데 behavior cloning을 해야하는 경우 observation만 정보로 들어오는 imitation learning from observations 태스트라고 부른다.
- Dynamics models
- inverse dynamics model
- forward dynamics model
LAPO에서는 두종류의 dynamics model을 사용한다.
pIDM(a_t | o_t, o_{t+1})
pFDM(o_{t+1} | o_t, a_t)
- Vector-Quatization
method for learning discrete features bu quatizing an underlying continuous representation.
discrete한걸 배우면서, gradient가 흘러갈 수 있게해서 딥러닝에서 많이 쓰인다.
The straight-through gradient estimator is used to pass gradients through the quantization step
m개의 vector를 갖는 codebook이 있어야하고, z를 이 중 하나에 매핑한다.
LAPO
- forward dynamics modelling objective를 통해 latent IDM을 학습한다.

- 이전 k개 까지의 observation을 가져와서 사용한다.
- IDM이 예측하는건 ot와 ot+1 사이의 latent action z_t

- FDM이 k개 이전까지의 observation과 위에서 예측한 z_t로 다음 state 예측

- 두 모델 모두 학습은 loss로 학습한다.
FDM도 IDM처럼 이전 k개의 observation을 가지고 있으니, IDM이 FDM으로 전달해줘야하는 정보는 오직 ‘차이’만이 된다. 이전 스테이트에 대한 어떠한 정보나 ot+1 자체에 대한 정보를 전달하지 않아도 됨.
자연스럽게 두 관측 사이의 차이를 가장 효율적으로 설명하는 encoding은 agent의 true action이 될 것으로 보인다(핵심 가설)
어떤 latent action z는 이전 state들에 따라 다른 true action으로 갈 수도 있다. 이게 꼭 문제가 되는건 아니지만, representation을 simple하게 의도적으로라도 만드는게 좋다. 그래서 VQ를 적용
policy 학습도

이렇게 한다. behavior cloning on predicted action latent by IDM
그 다음에 policy가 뱉는 latent를 true action으로 매핑할 생각을 한다. 이건 어찌됐든 action labeld dataset이 있어야함.
매핑만 하려면 small action-labeled dataset으로 디코더만 학습하거나,
reward 데이터도 있으면 전통 RL 방식으로 policy까지 학습한다.
Experimental setting
데이터는 총 8M frame이 있다 - expert가 플레이한
- IDM : IMPALA-CNN with 4 channel multiplier
- FDM : 사이즈 8M, Unet with ResNet backbone
- latent action decoder is fully-connected network with hidden size (128, 128)
EMA-based update for VQ embedding.
k는 1을 사용
했다.마지막에 latent policy를 discrete하게 매핑할 때는 layer head를 supervised manner로 학습하거나, PPO로 학습했다. 아니면 두방법 다 썼다는건가?
policy를 freeze하고 last layer만 더해서 학습할 때는 LR이 0.01로 큰게 좋더라. 다른 때는 5e-4가 그냥 좋았음

여길 보면
- pretrained LAPO + RL + SL
- pretrained LAPO + RL, no SL
- pretrained LAPO + RL, no SL, no VQ
- 단순 PPO로 학습
- ILPO
순으로 좋다. 오래 학습하면 PPO도 당연히 좋아진다.
LAPO 성능을 떨어뜨릴 수 있는 요인은 몇 가지가 있다.
- 지연 효과가 있는 행동(delay action) — 행동의 가시적 효과가 관측에서 한 박자 뒤에 나타나면, 잠재 정책은 그 지연만큼 늦게 행동이 일어난 것으로 예측한다. 즉, 잠재 정책이 모델링하는 것은 **‘행동 자체’**가 아니라 **‘행동의 관측 가능한 결과’**다. 그럼에도 대부분의 환경에서는, 환경 상태에 영향을 미치는 행동이라면 관측에 어떤 형태로든 즉각적인 변화가 일부 나타난다. 또한 지연 행동 문제는 IDM·FDM을 과거·미래 여러 시점을 함께 보도록 확장(예: Transformer‑기반 아키텍처 [Vaswani 외, 2017])하면 어느 정도 완화할 수 있다.
- 큰 확률성(stochasticity) — 환경 노이즈가 크면 IDM이 유용한 정보를 압축하기 어려워져 잠재 표현 품질이 떨어질 수 있다. 이를 완화하려면 훨씬 큰 데이터셋으로 학습해 정보‑대‑노이즈 비율을 높이는 방법이 유효하다.
- 대규모 데이터·복잡 도메인 — 웹 규모 동영상처럼 복잡한 도메인을 모델링하려면 모델 아키텍처도 대폭 확장해야 한다. 이때 오토인코더류 모델에서 흔히 보이는 문제처럼, FDM의 표현력과 잠재 행동 벡터 용량(병목 강도) 사이 균형을 잡는 새로운 과제가 생긴다 [Chen 외, 2016].
Share article
Subscribe to our newsletter