Title: Chain of World: World Model Thinking in Latent Motion
Authors: Fuxiang Yang, Donglin Di, Lulu Tang, Xuancheng Zhang, Lei Fan, Hao Li, Chen Wei, Tonghua Su
arXiv: https://arxiv.org/abs/2603.03195
Figure: https://arxiv.org/html/2603.03195v1/2603.03195v1/figs/robot_and_camera.jpg
Problem framing
VLA 常见两条路线各有短板:显式未来帧预测的 world-model VLA 容易把容量浪费在背景重建;latent-action VLA 虽紧凑,却缺少连续时序因果建模。CoWVLA 的问题定义是:如何在不做重像素重建的前提下保留世界模型的时序推理能力。
Core method
论文提出 Chain-of-World 思路:在 latent motion 空间串联世界状态演化,把“世界思考”从像素空间迁移到动态潜空间。这样既保留时序预测与因果推理,又降低冗余建模负担,更适合动作决策导向训练。
Key equations and mechanisms
可抽象为潜空间世界演化:
并在多步 rollout 上优化决策相关目标,而非像素重建误差优先。关键是让 latent transition 对动作可控性与任务完成率负责。
Experiment reading guide
建议关注:
- 相比 frame-prediction world model 的效率与性能;
- 相比纯 latent-action 模型在长时程任务的稳定收益;
- 多步 rollout 深度增加时的误差累积行为。
Limitations
latent world modeling 仍可能出现表示坍塌或 rollout 偏移;在复杂接触动力学下,若潜变量缺乏物理可解释性,长期规划可靠性可能受限。
Future work
可结合物理一致性正则与不确定性估计,构建风险感知的 latent rollout;并探索跨本体共享 latent dynamics 提升泛化。
Replication angle
复现优先对比三类目标:像素重建主导、latent transition 主导、混合目标;重点度量长时程任务中的误差累积与执行恢复能力。
Graph: Paper Node 2603.03195