High 2603.03195 Chain of World World Model Thinking in Latent Motion

Title: Chain of World: World Model Thinking in Latent Motion
Authors: Fuxiang Yang, Donglin Di, Lulu Tang, Xuancheng Zhang, Lei Fan, Hao Li, Chen Wei, Tonghua Su
arXiv: https://arxiv.org/abs/2603.03195

Figure: https://arxiv.org/html/2603.03195v1/2603.03195v1/figs/robot_and_camera.jpg

Problem framing

VLA 常见两条路线各有短板：显式未来帧预测的 world-model VLA 容易把容量浪费在背景重建；latent-action VLA 虽紧凑，却缺少连续时序因果建模。CoWVLA 的问题定义是：如何在不做重像素重建的前提下保留世界模型的时序推理能力。

Core method

论文提出 Chain-of-World 思路：在 latent motion 空间串联世界状态演化，把“世界思考”从像素空间迁移到动态潜空间。这样既保留时序预测与因果推理，又降低冗余建模负担，更适合动作决策导向训练。

Key equations and mechanisms

可抽象为潜空间世界演化：

z_{t + 1} = f_{ϕ} (z_{t}, a_{t}), a_{t} \sim π_{θ} (z_{t}, g)

并在多步 rollout 上优化决策相关目标，而非像素重建误差优先。关键是让 latent transition 对动作可控性与任务完成率负责。

Experiment reading guide

建议关注：

相比 frame-prediction world model 的效率与性能；
相比纯 latent-action 模型在长时程任务的稳定收益；
多步 rollout 深度增加时的误差累积行为。

Limitations

latent world modeling 仍可能出现表示坍塌或 rollout 偏移；在复杂接触动力学下，若潜变量缺乏物理可解释性，长期规划可靠性可能受限。

Future work

可结合物理一致性正则与不确定性估计，构建风险感知的 latent rollout；并探索跨本体共享 latent dynamics 提升泛化。

Replication angle

复现优先对比三类目标：像素重建主导、latent transition 主导、混合目标；重点度量长时程任务中的误差累积与执行恢复能力。

Graph: Paper Node 2603.03195