World Guidance: World Modeling in Condition Space for Action Generation

Title: World Guidance: World Modeling in Condition Space for Action Generation Authors: Yue Su, Sijin Chen, Haixin Shi, Mingyu Liu, et al. arXiv: https://arxiv.org/abs/2602.22010

Figure (HTML直链): https://arxiv.org/html/2602.22010v1/x2.png

Problem framing

现有把“未来观测建模”接入 VLA 的方法，常在两端摇摆：要么表征太粗导致动作指导力不足，要么未来表示太重导致训练/推理成本上升。该文核心问题是：如何在可预测紧凑表示与动作可控细粒度信息之间取得可扩展平衡。

Core method

提出 WoG（World Guidance）：先把未来观测映射到条件空间（condition space）形成可控中间变量，再由策略在该条件引导下生成动作。相比直接像素级未来预测，condition-space world modeling 更轻、更稳定，也更容易与动作头对齐。

Key equations and mechanisms

可写成两阶段目标： $c_{t + 1} = f_{θ} (o_{\leq t}, l), a_{t} \sim π_{ϕ} (a ∣ o_{t}, l, c_{t + 1})$ 其中 $l$ 为语言条件， $c_{t + 1}$ 为未来条件表示。训练上联合最小化未来条件预测误差与动作监督损失： $L = L_{co n d} (\overset{c}{^}_{t + 1}, c_{t + 1}) + λ L_{a c t} (\overset{a}{^}_{t}, a_{t})$ 机制要点是用“条件空间一致性”代替高成本像素重建。

Experiment reading guide

先看相对主流 VLA baseline 的任务成功率增益。
再看长时任务与分布外场景（遮挡/扰动）是否仍有提升。
最后看 ablation：去掉 world guidance 后退化幅度是否显著。

Limitations

条件空间是否足够表达接触细节，仍依赖数据覆盖。
若未来预测偏差累积，仍可能把策略引向错误动作子空间。

Future work

与测试时纠偏（test-time adaptation）结合，形成闭环自修正。
引入显式接触/力学先验，提升接触丰富任务稳定性。

Replication angle

先复现 condition encoder + action head 最小系统。
重点扫两个超参：condition维度与预测步长。
记录端到端延迟与长时误差漂移，评估真实部署价值。

Graph: Paper Node 2602.22010