Title: Scaling World Model for Hierarchical Manipulation Policies
Authors: Qian Long, Yueze Wang, Jiaxi Song, Junbo Zhang, Peiyan Li, Wenxuan Wang, Yuqi Wang, Haoyang Li, Shaoxuan Xie, Guocai Yao, Hanbo Zhang, Xinlong Wang, et al.
arXiv: https://arxiv.org/abs/2602.10983
arXiv 页面无稳定直链图片。
Problem framing
VLA 在 OOD 操作场景下脆弱,核心瓶颈是:仅靠文本目标的低层策略缺乏足够物理细节,导致“会说不会做”。该文尝试用大规模预训练世界模型做高层规划,给低层策略提供可执行的视觉子目标。
Core method
提出分层 VLA 框架(摘要中包含 VISTA 视觉子任务分解思想):
- 高层:世界模型把任务分解为子任务序列,并生成中间 goal images;
- 低层:VLA 根据文本+视觉子目标执行动作;
- 通过“视觉可落地中间态”替代纯文本指令,缓解语义到动力学的落差。
Key equations and mechanisms
可抽象为两阶段策略:
机制上, 提供物理可验证中间状态约束,使低层策略学习目标从“开放式语言”转为“具象视觉锚点”,提高跨物体、跨场景泛化。
Experiment reading guide
优先看:
- OOD 泛化提升是否主要来自“goal image 引导”而非模型规模本身;
- 摘要给出的 14%→69% 增益在哪些任务最显著(几何变化、外观变化、接触变化);
- 失败案例是否集中在世界模型预测偏差累积。
Limitations
- 分层链路依赖世界模型质量,错误子目标可能级联放大;
- 若子目标生成时序过长,推理延迟可能影响实时操控。
Future work
- 加入不确定性评估,动态选择“规划深度 vs 执行回退”;
- 将触觉/力觉纳入子目标表示,提升接触任务稳定性。
Replication angle
复现可先做“文本目标 vs 文本+视觉子目标”对照,关注:
- OOD 成功率提升幅度;
- 子目标预测误差与最终任务成功率的相关性;
- 分层频率(重规划周期)对性能/时延的影响。
Graph: Paper Node 2602.10983