Title: World Guidance: World Modeling in Condition Space for Action Generation Authors: Yue Su, Sijin Chen, Haixin Shi, Mingyu Liu, et al. arXiv: https://arxiv.org/abs/2602.22010

Figure (HTML直链): https://arxiv.org/html/2602.22010v1/x2.png

Problem framing

现有把“未来观测建模”接入 VLA 的方法,常在两端摇摆:要么表征太粗导致动作指导力不足,要么未来表示太重导致训练/推理成本上升。该文核心问题是:如何在可预测紧凑表示动作可控细粒度信息之间取得可扩展平衡。

Core method

提出 WoG(World Guidance):先把未来观测映射到条件空间(condition space)形成可控中间变量,再由策略在该条件引导下生成动作。相比直接像素级未来预测,condition-space world modeling 更轻、更稳定,也更容易与动作头对齐。

Key equations and mechanisms

可写成两阶段目标: 其中 为语言条件, 为未来条件表示。训练上联合最小化未来条件预测误差与动作监督损失: 机制要点是用“条件空间一致性”代替高成本像素重建。

Experiment reading guide

  1. 先看相对主流 VLA baseline 的任务成功率增益。
  2. 再看长时任务与分布外场景(遮挡/扰动)是否仍有提升。
  3. 最后看 ablation:去掉 world guidance 后退化幅度是否显著。

Limitations

  • 条件空间是否足够表达接触细节,仍依赖数据覆盖。
  • 若未来预测偏差累积,仍可能把策略引向错误动作子空间。

Future work

  • 与测试时纠偏(test-time adaptation)结合,形成闭环自修正。
  • 引入显式接触/力学先验,提升接触丰富任务稳定性。

Replication angle

  • 先复现 condition encoder + action head 最小系统。
  • 重点扫两个超参:condition维度与预测步长。
  • 记录端到端延迟与长时误差漂移,评估真实部署价值。

Graph: Paper Node 2602.22010