Title: Robometer: Scaling General-Purpose Robotic Reward Models via Trajectory Comparisons
Authors: Anthony Liang, Yigit Korkmaz, Jiahui Zhang, Minyoung Hwang, Abrar Anwar, Sidhant Kaushik, Aditya Shah, Alex S. Huang, et al.
arXiv: https://arxiv.org/abs/2603.02115
arXiv 页面无稳定直链图片。
Problem framing
通用机器人 reward model 常依赖专家轨迹的绝对进度标注,但大规模现实数据里失败/次优轨迹很多,密集标注既贵又歧义高,导致 reward 学习难扩展。
Core method
Robometer 采用“轨迹内进度监督 + 轨迹间比较监督”联合训练。关键思想是把绝对评分问题转成相对排序问题,通过 pairwise trajectory comparison 获取更稳健、可扩展的监督信号。
Key equations and mechanisms
可理解为联合损失:
其中排序项对应 pairwise preference/ranking objective。机制上,这能在含大量非专家数据时保持 reward 单调性与可比较性。
Experiment reading guide
优先看:1) 在包含失败轨迹的数据集上是否优于绝对回归基线;2) 不同任务跨域迁移效果;3) 下游规划/策略优化时 reward 可用性提升是否稳定。
Limitations
比较学习依赖采样对质量,若 pair 构造偏差大可能引入排序噪声;此外 reward 对开放世界长时程任务的外推能力仍待检验。
Future work
可加入不确定性校准与主动比较采样,在有限标注预算下最大化 reward 学习效率;也可接入人类偏好以对齐安全与任务风格目标。
Replication angle
建议先复现 pairwise 数据构造管线,再做“只用绝对标注/只用比较标注/联合标注”三路对照,观察 reward 与下游成功率的相关性是否显著提升。
Graph: Paper Node 2603.02115