2602.12063 VLAW策略与世界模型迭代共进化

Title: VLAW: Iterative Co-Improvement of Vision-Language-Action Policy and World Model
Authors: Yanjiang Guo, Tony Lee, Lucy Xiaoyang Shi, Jianyu Chen, Percy Liang, Chelsea Finn
arXiv: https://arxiv.org/abs/2602.12063

arXiv 页面无稳定直链图片。

Problem framing

真实 rollouts 昂贵，而世界模型又常因缺少失败数据与接触细节而“仿真不真”，导致 synthetic rollout 反而拖累策略。

Core method

提出迭代闭环：

用真实机器人新轨迹提升世界模型保真度；
用改进后的世界模型生成补充合成轨迹；
用合成+真实数据继续提升 VLA 策略；
循环执行，策略与世界模型共同上升。

Key equations and mechanisms

可写成交替优化：

θ_{k + 1} \leftarrow ar g θ min L_{w m} (D_{k}^{re a l}), ϕ_{k + 1} \leftarrow ar g ϕ min L_{v l a} (D_{k}^{re a l} \cup D_{k + 1}^{sy n} (θ_{k + 1})) .

Experiment reading guide

基座策略到最终策略 +39.2% 绝对成功率提升的任务构成；
纯加合成数据仅 +11.6% 的上限与失败场景；
世界模型误差如何影响长时程操作稳定性。

Limitations

闭环收益依赖真实补充数据分布；
迭代训练成本高，线上部署需预算约束。

Future work

引入主动采样，优先采集高信息量失败轨迹；
将安全约束加入 world-model rollout 过滤。

Graph: Paper Node 2602.12063