Title: RISE: Self-Improving Robot Policy with Compositional World Model
Authors: Jiazhi Yang, Kunyang Lin, Jinwei Li, Wencong Zhang, Tianwei Lin, Longyan Wu, Zhizhong Su, Hao Zhao, Ya-Qin Zhang, Li Chen, Ping Luo, Xiangyu Yue, et al.
arXiv: https://arxiv.org/abs/2602.11075

arXiv 页面无稳定直链图片。

Problem framing

VLA 在接触密集、动态操控中容易因微小执行误差而连锁失败。真实世界 on-policy RL 虽有效,但成本高、重置慢、风险大。问题转化为:能否在“想象空间”里做高效策略改进,同时保持对真实任务有用。

Core method

RISE 提出组合式世界模型驱动的自我提升闭环:

  • dynamics 模块预测可控多视角未来;
  • progress value 模块评估想象轨迹进展并产出优势信号;
  • 策略在 imagined rollouts 上持续迭代,无需大量真实交互。

Key equations and mechanisms

其策略优化可抽象为:

组合式设计的要点是“状态预测”和“价值评估”解耦,各用更匹配的结构与目标函数,减少单一世界模型多任务冲突。

Experiment reading guide

读实验时建议先看:

  1. 真实三项任务中的绝对成功率提升与方差;
  2. 与直接行为克隆/常规 RL 微调相比,RISE 的样本成本优势;
  3. 想象轨迹质量与真实执行增益的相关性(是否存在模型幻觉上限)。

Limitations

  • 世界模型误差可能在长 rollout 中积累,造成优势估计偏差;
  • 想象训练与真实动力学不一致时,策略可能出现“仿真乐观”。

Future work

  • 引入不确定性感知的 rollout 截断与风险惩罚;
  • 与在线少量真实校正结合,形成低成本闭环自适应。

Replication angle

适合在已有 VLA 基线上做“离线想象微调”插件式验证:

  • 固定真实数据预算,比较成功率提升/训练步数;
  • 统计 imagined advantage 与真实回报相关性;
  • 测试不同 rollout 长度对稳定性的影响。

Graph: Paper Node 2602.11075