Title: Cross-Embodiment Offline Reinforcement Learning for Heterogeneous Robot Datasets
Authors: Haruki Abe, Takayuki Osa, Yusuke Mukuta, Tatsuya Harada
arXiv: https://arxiv.org/abs/2602.18025

Problem framing

这篇工作瞄准一个现实瓶颈:机器人策略预训练需要大量高质量示教,但每一种本体(机械臂、手爪、移动底盘)都单独采集成本极高。作者把问题改写为“跨本体离线RL”:在 heterogeneous 数据集里同时利用专家+次优轨迹,学习可迁移控制先验,而不是只做行为克隆。

Core method

核心是把跨本体对齐和离线RL耦合:

  1. 构建统一状态-动作语义空间(弱对齐,不要求动作维度完全一致);
  2. 在离线目标里显式建模“跨本体共享收益”和“本体特有偏差”;
  3. 用 conservative/value-regularized 的离线更新抑制 OOD action overestimation。

直观上,它不是“先对齐再学策略”,而是让策略学习过程反过来约束表示对齐质量。

Key equations and mechanisms

可抽象为如下目标(论文实际符号略有不同):

\max_\pi \; \mathbb{E}_{(s,a)\sim\mathcal D}ig[Q_ heta(s,a)ig] -\lambda_{ ext{ood}}\,\mathcal R_{ ext{conservative}}(Q_ heta,\mathcal D) -\lambda_{ ext{emb}}\,\mathcal L_{ ext{cross-emb}}(\phi)

其中 约束不同本体在任务相关子空间保持可比性, 控制离线RL的分布外乐观偏差。机制重点是“双重正则”:既防价值发散,又防跨本体负迁移。

Experiment reading guide

优先看三类结果:

  • 跨本体迁移增益:源本体数据是否提升目标本体成功率;
  • 次优数据利用率:加入 suboptimal rollouts 后是否仍稳定提升;
  • 消融:去掉 cross-emb 或去掉 conservative 项后性能是否明显掉。

如果这三项都成立,说明它不是“数据量堆出来”,而是目标函数设计有效。

Limitations

  • 跨本体映射仍依赖任务语义重叠,差异过大时可能退化;
  • 离线RL稳定性对数据覆盖依然敏感;
  • 真实工业场景中的安全约束尚未完全内生到训练目标。

Future work

可沿三个方向推进:

  1. 把 morphology-aware dynamics priors 并入
  2. 与世界模型结合,形成跨本体 imagined rollouts;
  3. 做在线小步适配,把离线先验落地到新硬件。

Replication angle

复现实操建议:先选两个动作空间接近的平台(如双机械臂)做最小验证;固定离线RL backbone,只替换 cross-emb 模块;监控 OOD Q-value 漂移与成功率同时变化,避免“离线指标好看、真实执行崩”。

Figure: arXiv source 可提取关键图(跨本体设置示意),建议优先看 EG 主图。

Graph: Paper Node 2602.18025