Title: WoVR: World Models as Reliable Simulators for Post-Training VLA Policies with RL
Authors: Zhennan Jiang, Shangqing Zhou, Yutong Jiang, et al.
arXiv: https://arxiv.org/abs/2602.13977

Problem framing

VLA+RL 的核心瓶颈是现实交互昂贵;但直接在世界模型里 rollout 又会出现幻觉与长时误差累积,策略会“学会利用仿真器漏洞”。WoVR 的问题定义是:如何把不完美世界模型变成“足够可靠”的 RL 优化器。

Core method

WoVR 用三件事控制 imagined RL 偏差:

  • 可控动作条件视频世界模型,提升 rollout 稳定性;
  • Keyframe-Initialized Rollouts,缩短有效误差传播深度;
  • World Model-Policy co-evolution,让策略与仿真器分布持续对齐。

Key equations and mechanisms

机制上可理解为最小化“策略收益 + 模型偏差惩罚”:

\max_\pi \; \mathbb E_{\hat p_\phi,\pi}[R]-eta\,\mathbb E[d(\hat p_\phi, p)]

其中通过关键帧重置把长链 rollout 切分为多段短链,等价降低误差项随时间的指数累积风险。

Experiment reading guide

优先看:

  • LIBERO 平均成功率从 39.95% 到 69.2% 的任务分布是否均匀;
  • 真机提升(61.7%→91.7%)对应哪些操作类型;
  • 去掉 keyframe 或 co-evolution 的消融退化幅度。

Limitations

  • 仍依赖世界模型视觉质量与动力学拟合上限;
  • 复杂接触和极端 OOD 场景下可能出现不可控偏移;
  • 训练资源较重,工程门槛偏高。

Future work

可以把风险敏感目标(CVaR/鲁棒 Bellman)与 rollout 可信度估计结合,做“可信度驱动”的动态 imagination 深度调度。

Replication angle

先在单任务上对比 fixed rollout 与 keyframe rollout,再扩展多任务;记录 imagined-return 与 real-return 的相关系数曲线。

Graph: Paper Node 2602.13977