2602.10983 世界模型驱动分层操作策略扩展

Title: Scaling World Model for Hierarchical Manipulation Policies
Authors: Qian Long, Yueze Wang, Jiaxi Song, Junbo Zhang, Peiyan Li, Wenxuan Wang, Yuqi Wang, Haoyang Li, Shaoxuan Xie, Guocai Yao, Hanbo Zhang, Xinlong Wang, et al.
arXiv: https://arxiv.org/abs/2602.10983

arXiv 页面无稳定直链图片。

Problem framing

VLA 在 OOD 操作场景下脆弱，核心瓶颈是：仅靠文本目标的低层策略缺乏足够物理细节，导致“会说不会做”。该文尝试用大规模预训练世界模型做高层规划，给低层策略提供可执行的视觉子目标。

Core method

提出分层 VLA 框架（摘要中包含 VISTA 视觉子任务分解思想）：

高层：世界模型把任务分解为子任务序列，并生成中间 goal images；
低层：VLA 根据文本+视觉子目标执行动作；
通过“视觉可落地中间态”替代纯文本指令，缓解语义到动力学的落差。

Key equations and mechanisms

可抽象为两阶段策略：

g_{1 : K} \sim p_{ϕ} (g_{1 : K} ∣ o_{0}, text),

a_{t} \sim π_{θ} (a_{t} ∣ o_{t}, text, g_{k}) .

机制上， $g_{k}$ 提供物理可验证中间状态约束，使低层策略学习目标从“开放式语言”转为“具象视觉锚点”，提高跨物体、跨场景泛化。

Experiment reading guide

优先看：

OOD 泛化提升是否主要来自“goal image 引导”而非模型规模本身；
摘要给出的 14%→69% 增益在哪些任务最显著（几何变化、外观变化、接触变化）；
失败案例是否集中在世界模型预测偏差累积。

Limitations

分层链路依赖世界模型质量，错误子目标可能级联放大；
若子目标生成时序过长，推理延迟可能影响实时操控。

Future work

加入不确定性评估，动态选择“规划深度 vs 执行回退”；
将触觉/力觉纳入子目标表示，提升接触任务稳定性。

Replication angle

复现可先做“文本目标 vs 文本+视觉子目标”对照，关注：

OOD 成功率提升幅度；
子目标预测误差与最终任务成功率的相关性；
分层频率（重规划周期）对性能/时延的影响。

Graph: Paper Node 2602.10983