Title: Self-adapting Robotic Agents through Online Continual Reinforcement Learning with World Model Feedback
Authors: Fabian Domberg, Georg Schildbach
arXiv: https://arxiv.org/abs/2603.04029

Problem framing

离线训练后固定参数部署的机器人在环境漂移下易性能崩塌。该文目标是在部署期持续在线适配,而不是回到离线重训。

Core method

方法基于DreamerV3,引入世界模型预测残差作为OOD探测信号,当残差异常上升时触发在线continual RL更新,实现“边执行边自适应”。

Key equations and mechanisms

机制可写成: 通过阈值触发更新,避免全程高频学习造成不稳定。

Experiment reading guide

看三点:分布突变时恢复速度、长期稳定性(是否震荡)、以及相较固定策略的累计回报改进。

Limitations

在线更新有安全风险,需要配合约束或安全盾;阈值 对触发频率敏感。

Future work

与CBF/安全过滤器结合,形成“先保安全再适配”的两层闭环更适合真实部署。

Replication angle

可先在仿真中人为注入动力学突变(摩擦/质量变化)验证残差触发是否可靠,再迁移真机。

图示:arXiv 页面无稳定直链图片。

Graph: Paper Node 2603.04029