Title: VLAW: Iterative Co-Improvement of Vision-Language-Action Policy and World Model
Authors: Yanjiang Guo, Tony Lee, Lucy Xiaoyang Shi, Jianyu Chen, Percy Liang, Chelsea Finn
arXiv: https://arxiv.org/abs/2602.12063
arXiv 页面无稳定直链图片。
Problem framing
真实 rollouts 昂贵,而世界模型又常因缺少失败数据与接触细节而“仿真不真”,导致 synthetic rollout 反而拖累策略。
Core method
提出迭代闭环:
- 用真实机器人新轨迹提升世界模型保真度;
- 用改进后的世界模型生成补充合成轨迹;
- 用合成+真实数据继续提升 VLA 策略;
- 循环执行,策略与世界模型共同上升。
Key equations and mechanisms
可写成交替优化:
Experiment reading guide
- 基座策略到最终策略 +39.2% 绝对成功率提升的任务构成;
- 纯加合成数据仅 +11.6% 的上限与失败场景;
- 世界模型误差如何影响长时程操作稳定性。
Limitations
- 闭环收益依赖真实补充数据分布;
- 迭代训练成本高,线上部署需预算约束。
Future work
- 引入主动采样,优先采集高信息量失败轨迹;
- 将安全约束加入 world-model rollout 过滤。
Graph: Paper Node 2602.12063