2602.11075 RISE 组合式世界模型自我提升策略

Title: RISE: Self-Improving Robot Policy with Compositional World Model
Authors: Jiazhi Yang, Kunyang Lin, Jinwei Li, Wencong Zhang, Tianwei Lin, Longyan Wu, Zhizhong Su, Hao Zhao, Ya-Qin Zhang, Li Chen, Ping Luo, Xiangyu Yue, et al.
arXiv: https://arxiv.org/abs/2602.11075

arXiv 页面无稳定直链图片。

Problem framing

VLA 在接触密集、动态操控中容易因微小执行误差而连锁失败。真实世界 on-policy RL 虽有效，但成本高、重置慢、风险大。问题转化为：能否在“想象空间”里做高效策略改进，同时保持对真实任务有用。

Core method

RISE 提出组合式世界模型驱动的自我提升闭环：

dynamics 模块预测可控多视角未来；
progress value 模块评估想象轨迹进展并产出优势信号；
策略在 imagined rollouts 上持续迭代，无需大量真实交互。

Key equations and mechanisms

其策略优化可抽象为：

\overset{τ}{^} \sim p_{ϕ} (τ ∣ o_{0 : t}, a_{0 : t}), \hat{A}_{t} = \hat{V}_{ψ} (\overset{s}{^}_{t + 1}) - \hat{V}_{ψ} (\overset{s}{^}_{t}),

θ \leftarrow ar g θ max E_{\overset{τ}{^}} [lo g π_{θ} (a_{t} ∣ \overset{s}{^}_{t}) \hat{A}_{t}] .

组合式设计的要点是“状态预测”和“价值评估”解耦，各用更匹配的结构与目标函数，减少单一世界模型多任务冲突。

Experiment reading guide

读实验时建议先看：

真实三项任务中的绝对成功率提升与方差；
与直接行为克隆/常规 RL 微调相比，RISE 的样本成本优势；
想象轨迹质量与真实执行增益的相关性（是否存在模型幻觉上限）。

Limitations

世界模型误差可能在长 rollout 中积累，造成优势估计偏差；
想象训练与真实动力学不一致时，策略可能出现“仿真乐观”。

Future work

引入不确定性感知的 rollout 截断与风险惩罚；
与在线少量真实校正结合，形成低成本闭环自适应。

Replication angle

适合在已有 VLA 基线上做“离线想象微调”插件式验证：

固定真实数据预算，比较成功率提升/训练步数；
统计 imagined advantage 与真实回报相关性；
测试不同 rollout 长度对稳定性的影响。

Graph: Paper Node 2602.11075