Cross-Embodiment Offline Reinforcement Learning for Heterogeneous Robot Datasets

Title: Cross-Embodiment Offline Reinforcement Learning for Heterogeneous Robot Datasets
Authors: Haruki Abe, Takayuki Osa, Yusuke Mukuta, Tatsuya Harada
arXiv: https://arxiv.org/abs/2602.18025

Problem framing

这篇工作瞄准一个现实瓶颈：机器人策略预训练需要大量高质量示教，但每一种本体（机械臂、手爪、移动底盘）都单独采集成本极高。作者把问题改写为“跨本体离线RL”：在 heterogeneous 数据集里同时利用专家+次优轨迹，学习可迁移控制先验，而不是只做行为克隆。

Core method

核心是把跨本体对齐和离线RL耦合：

构建统一状态-动作语义空间（弱对齐，不要求动作维度完全一致）；
在离线目标里显式建模“跨本体共享收益”和“本体特有偏差”；
用 conservative/value-regularized 的离线更新抑制 OOD action overestimation。

直观上，它不是“先对齐再学策略”，而是让策略学习过程反过来约束表示对齐质量。

Key equations and mechanisms

可抽象为如下目标（论文实际符号略有不同）：

\max_\pi \; \mathbb{E}_{(s,a)\sim\mathcal D}ig[Q_ heta(s,a)ig] -\lambda_{ ext{ood}}\,\mathcal R_{ ext{conservative}}(Q_ heta,\mathcal D) -\lambda_{ ext{emb}}\,\mathcal L_{ ext{cross-emb}}(\phi)

其中 $L_{e x t cross - e mb}$ 约束不同本体在任务相关子空间保持可比性， $R_{e x t co n ser v a t i v e}$ 控制离线RL的分布外乐观偏差。机制重点是“双重正则”：既防价值发散，又防跨本体负迁移。

Experiment reading guide

优先看三类结果：

跨本体迁移增益：源本体数据是否提升目标本体成功率；
次优数据利用率：加入 suboptimal rollouts 后是否仍稳定提升；
消融：去掉 cross-emb 或去掉 conservative 项后性能是否明显掉。

如果这三项都成立，说明它不是“数据量堆出来”，而是目标函数设计有效。

Limitations

跨本体映射仍依赖任务语义重叠，差异过大时可能退化；
离线RL稳定性对数据覆盖依然敏感；
真实工业场景中的安全约束尚未完全内生到训练目标。

Future work

可沿三个方向推进：

把 morphology-aware dynamics priors 并入 $L_{e x t cross - e mb}$ ；
与世界模型结合，形成跨本体 imagined rollouts；
做在线小步适配，把离线先验落地到新硬件。

Replication angle

复现实操建议：先选两个动作空间接近的平台（如双机械臂）做最小验证；固定离线RL backbone，只替换 cross-emb 模块；监控 OOD Q-value 漂移与成功率同时变化，避免“离线指标好看、真实执行崩”。

Figure: arXiv source 可提取关键图（跨本体设置示意），建议优先看 EG 主图。

Graph: Paper Node 2602.18025