WoVR World Models as Reliable Simulators for Post-Training VLA Policies with RL

Title: WoVR: World Models as Reliable Simulators for Post-Training VLA Policies with RL
Authors: Zhennan Jiang, Shangqing Zhou, Yutong Jiang, et al.
arXiv: https://arxiv.org/abs/2602.13977

Problem framing

VLA+RL 的核心瓶颈是现实交互昂贵；但直接在世界模型里 rollout 又会出现幻觉与长时误差累积，策略会“学会利用仿真器漏洞”。WoVR 的问题定义是：如何把不完美世界模型变成“足够可靠”的 RL 优化器。

Core method

WoVR 用三件事控制 imagined RL 偏差：

可控动作条件视频世界模型，提升 rollout 稳定性；
Keyframe-Initialized Rollouts，缩短有效误差传播深度；
World Model-Policy co-evolution，让策略与仿真器分布持续对齐。

Key equations and mechanisms

机制上可理解为最小化“策略收益 + 模型偏差惩罚”：

\max_\pi \; \mathbb E_{\hat p_\phi,\pi}[R]-eta\,\mathbb E[d(\hat p_\phi, p)]

其中通过关键帧重置把长链 rollout 切分为多段短链，等价降低误差项随时间的指数累积风险。

Experiment reading guide

优先看：

LIBERO 平均成功率从 39.95% 到 69.2% 的任务分布是否均匀；
真机提升（61.7%→91.7%）对应哪些操作类型；
去掉 keyframe 或 co-evolution 的消融退化幅度。

Limitations

仍依赖世界模型视觉质量与动力学拟合上限；
复杂接触和极端 OOD 场景下可能出现不可控偏移；
训练资源较重，工程门槛偏高。

Future work

可以把风险敏感目标（CVaR/鲁棒 Bellman）与 rollout 可信度估计结合，做“可信度驱动”的动态 imagination 深度调度。

Replication angle

先在单任务上对比 fixed rollout 与 keyframe rollout，再扩展多任务；记录 imagined-return 与 real-return 的相关系数曲线。

Figure links

https://arxiv.org/pdf/2602.13977.pdf (Fig.1, p1)
./out/telegram-cards/2026-02-18/wovr_fig.jpg

Graph: Paper Node 2602.13977