Self-adapting Robotic Agents through Online Continual Reinforcement Learning with World Model Feedback

Title: Self-adapting Robotic Agents through Online Continual Reinforcement Learning with World Model Feedback
Authors: Fabian Domberg, Georg Schildbach
arXiv: https://arxiv.org/abs/2603.04029

Problem framing

离线训练后固定参数部署的机器人在环境漂移下易性能崩塌。该文目标是在部署期持续在线适配，而不是回到离线重训。

Core method

方法基于DreamerV3，引入世界模型预测残差作为OOD探测信号，当残差异常上升时触发在线continual RL更新，实现“边执行边自适应”。

Key equations and mechanisms

机制可写成： $r_{t}^{w m} = ∥ \overset{s}{^}_{t + 1} - s_{t + 1} ∥, 1_{a d a pt} = 1 [r_{t}^{w m} > τ]$ $θ \leftarrow θ - η \nabla_{θ} (L_{R L} + α L_{w m}) \cdot 1_{a d a pt}$ 通过阈值触发更新，避免全程高频学习造成不稳定。

Experiment reading guide

看三点：分布突变时恢复速度、长期稳定性（是否震荡）、以及相较固定策略的累计回报改进。

Limitations

在线更新有安全风险，需要配合约束或安全盾；阈值 $τ$ 对触发频率敏感。

Future work

与CBF/安全过滤器结合，形成“先保安全再适配”的两层闭环更适合真实部署。

Replication angle

可先在仿真中人为注入动力学突变（摩擦/质量变化）验证残差触发是否可靠，再迁移真机。

图示：arXiv 页面无稳定直链图片。

Graph: Paper Node 2603.04029