Title: TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics
Authors: Shirui Chen, Cole Harrison, Ying-Chun Lee, Angela Jin Yang, Zhongzheng Ren, Lillian J. Ratliff, Jiafei Duan, Dieter Fox, Ranjay Krishna
arXiv: https://arxiv.org/abs/2602.19313
Problem framing
VLA 在真实机器人 RL 中最卡的不是策略容量,而是奖励:稀疏、昂贵、跨任务不可迁移。本文瞄准“零训练 reward model”路线,核心问题是:能不能直接从预训练视频 VLM 里抽出可单调跟踪任务进度的价值信号,而不再做任务特定标注与微调。
Core method
TOPReward 不再让 VLM “生成一个百分比数字”,而是读取其内部 token 概率分布,把“完成态 token 质量”与“未完成 token 质量”的相对变化当作进度信号。作者认为开源模型失败常来自数值文本输出偏置,而非时序理解缺失。
可写成:给定时刻 的视觉输入 ,对两组词表 计算
再做时序平滑得到进度估计 ,要求随任务推进近似单调上升。
Key equations and mechanisms
- 概率比值机制:用 log-mass 差替代单 token 数值回归,降低 tokenizer 数字偏置。
- 时间一致性机制:对 施加平滑/单调约束,使其可作为 dense reward。
- 下游耦合机制:把 用于 success detection 与 advantage-weighted BC,形成“零样本奖励 → 可训练策略”闭环。
Experiment reading guide
先看三组结果:
- 130+ 真实任务 VOC 指标:检验是否真能跨平台泛化。
- 与 GVL 对比:关注开源 VLM 上是否从近零相关提升到可用区间。
- SO-100 实机微调收益:看 reward 质量能否转化为成功率增益。
Limitations
- 仍依赖 prompt 与词表设计,任务语言描述质量会影响稳定性。
- 价值信号是“隐变量代理”,在多阶段失败/回退场景可能出现非单调抖动。
- 对极端遮挡/视角突变场景,token mass 与真实进度可能错配。
Future work
- 学习任务自适应词表 ;
- 将不确定性估计并入 reward(如温度标定后置信区间);
- 与 model-based RL 结合,直接优化“进度可预测性”。
Replication angle
最低复现路径:先在 ManiRewardBench 子集重做 VOC;再把 接到离线 AWR/AWBC。关键超参是词表构造、时序平滑窗口、以及 reward clipping。
Key Figure: https://arxiv.org/html/2602.19313/Figure/method_example.png
Alt Figure: https://arxiv.org/html/2602.19313/x1.png
Graph: Paper Node 2602.19313