Title: VLAW: Iterative Co-Improvement of Vision-Language-Action Policy and World Model
Authors: Yanjiang Guo, Tony Lee, Lucy Xiaoyang Shi, Jianyu Chen, Percy Liang, Chelsea Finn
arXiv: https://arxiv.org/abs/2602.12063

arXiv 页面无稳定直链图片。

Problem framing

真实 rollouts 昂贵,而世界模型又常因缺少失败数据与接触细节而“仿真不真”,导致 synthetic rollout 反而拖累策略。

Core method

提出迭代闭环:

  1. 用真实机器人新轨迹提升世界模型保真度;
  2. 用改进后的世界模型生成补充合成轨迹;
  3. 用合成+真实数据继续提升 VLA 策略;
  4. 循环执行,策略与世界模型共同上升。

Key equations and mechanisms

可写成交替优化:

Experiment reading guide

  • 基座策略到最终策略 +39.2% 绝对成功率提升的任务构成;
  • 纯加合成数据仅 +11.6% 的上限与失败场景;
  • 世界模型误差如何影响长时程操作稳定性。

Limitations

  • 闭环收益依赖真实补充数据分布;
  • 迭代训练成本高,线上部署需预算约束。

Future work

  • 引入主动采样,优先采集高信息量失败轨迹;
  • 将安全约束加入 world-model rollout 过滤。

Graph: Paper Node 2602.12063