Title: RISE: Self-Improving Robot Policy with Compositional World Model
Authors: Jiazhi Yang, Kunyang Lin, Jinwei Li, Wencong Zhang, Tianwei Lin, Longyan Wu, Zhizhong Su, Hao Zhao, Ya-Qin Zhang, Li Chen, Ping Luo, Xiangyu Yue, et al.
arXiv: https://arxiv.org/abs/2602.11075
arXiv 页面无稳定直链图片。
Problem framing
VLA 在接触密集、动态操控中容易因微小执行误差而连锁失败。真实世界 on-policy RL 虽有效,但成本高、重置慢、风险大。问题转化为:能否在“想象空间”里做高效策略改进,同时保持对真实任务有用。
Core method
RISE 提出组合式世界模型驱动的自我提升闭环:
- dynamics 模块预测可控多视角未来;
- progress value 模块评估想象轨迹进展并产出优势信号;
- 策略在 imagined rollouts 上持续迭代,无需大量真实交互。
Key equations and mechanisms
其策略优化可抽象为:
组合式设计的要点是“状态预测”和“价值评估”解耦,各用更匹配的结构与目标函数,减少单一世界模型多任务冲突。
Experiment reading guide
读实验时建议先看:
- 真实三项任务中的绝对成功率提升与方差;
- 与直接行为克隆/常规 RL 微调相比,RISE 的样本成本优势;
- 想象轨迹质量与真实执行增益的相关性(是否存在模型幻觉上限)。
Limitations
- 世界模型误差可能在长 rollout 中积累,造成优势估计偏差;
- 想象训练与真实动力学不一致时,策略可能出现“仿真乐观”。
Future work
- 引入不确定性感知的 rollout 截断与风险惩罚;
- 与在线少量真实校正结合,形成低成本闭环自适应。
Replication angle
适合在已有 VLA 基线上做“离线想象微调”插件式验证:
- 固定真实数据预算,比较成功率提升/训练步数;
- 统计 imagined advantage 与真实回报相关性;
- 测试不同 rollout 长度对稳定性的影响。
Graph: Paper Node 2602.11075