High 2603.02115 Robometer Scaling General Purpose Robotic Reward Models via Trajectory Comparisons

Title: Robometer: Scaling General-Purpose Robotic Reward Models via Trajectory Comparisons
Authors: Anthony Liang, Yigit Korkmaz, Jiahui Zhang, Minyoung Hwang, Abrar Anwar, Sidhant Kaushik, Aditya Shah, Alex S. Huang, et al.
arXiv: https://arxiv.org/abs/2603.02115

arXiv 页面无稳定直链图片。

Problem framing

通用机器人 reward model 常依赖专家轨迹的绝对进度标注，但大规模现实数据里失败/次优轨迹很多，密集标注既贵又歧义高，导致 reward 学习难扩展。

Core method

Robometer 采用“轨迹内进度监督 + 轨迹间比较监督”联合训练。关键思想是把绝对评分问题转成相对排序问题，通过 pairwise trajectory comparison 获取更稳健、可扩展的监督信号。

Key equations and mechanisms

可理解为联合损失：

L = L_{i} n t r a_{p} ro g ress + b e t a * L_{i} n t e r_{r} ankin g

其中排序项对应 pairwise preference/ranking objective。机制上，这能在含大量非专家数据时保持 reward 单调性与可比较性。

Experiment reading guide

优先看：1) 在包含失败轨迹的数据集上是否优于绝对回归基线；2) 不同任务跨域迁移效果；3) 下游规划/策略优化时 reward 可用性提升是否稳定。

Limitations

比较学习依赖采样对质量，若 pair 构造偏差大可能引入排序噪声；此外 reward 对开放世界长时程任务的外推能力仍待检验。

Future work

可加入不确定性校准与主动比较采样，在有限标注预算下最大化 reward 学习效率；也可接入人类偏好以对齐安全与任务风格目标。

Replication angle

建议先复现 pairwise 数据构造管线，再做“只用绝对标注/只用比较标注/联合标注”三路对照，观察 reward 与下游成功率的相关性是否显著提升。

Graph: Paper Node 2603.02115