Title: TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics
Authors: Shirui Chen, Cole Harrison, Ying-Chun Lee, Angela Jin Yang, Zhongzheng Ren, Lillian J. Ratliff, Jiafei Duan, Dieter Fox, Ranjay Krishna
arXiv: https://arxiv.org/abs/2602.19313

Problem framing

VLA 在真实机器人 RL 中最卡的不是策略容量,而是奖励:稀疏、昂贵、跨任务不可迁移。本文瞄准“零训练 reward model”路线,核心问题是:能不能直接从预训练视频 VLM 里抽出可单调跟踪任务进度的价值信号,而不再做任务特定标注与微调。

Core method

TOPReward 不再让 VLM “生成一个百分比数字”,而是读取其内部 token 概率分布,把“完成态 token 质量”与“未完成 token 质量”的相对变化当作进度信号。作者认为开源模型失败常来自数值文本输出偏置,而非时序理解缺失。

可写成:给定时刻 的视觉输入 ,对两组词表 计算

再做时序平滑得到进度估计 ,要求随任务推进近似单调上升。

Key equations and mechanisms

  • 概率比值机制:用 log-mass 差替代单 token 数值回归,降低 tokenizer 数字偏置。
  • 时间一致性机制:对 施加平滑/单调约束,使其可作为 dense reward。
  • 下游耦合机制:把 用于 success detection 与 advantage-weighted BC,形成“零样本奖励 → 可训练策略”闭环。

Experiment reading guide

先看三组结果:

  1. 130+ 真实任务 VOC 指标:检验是否真能跨平台泛化。
  2. 与 GVL 对比:关注开源 VLM 上是否从近零相关提升到可用区间。
  3. SO-100 实机微调收益:看 reward 质量能否转化为成功率增益。

Limitations

  • 仍依赖 prompt 与词表设计,任务语言描述质量会影响稳定性。
  • 价值信号是“隐变量代理”,在多阶段失败/回退场景可能出现非单调抖动。
  • 对极端遮挡/视角突变场景,token mass 与真实进度可能错配。

Future work

  • 学习任务自适应词表
  • 将不确定性估计并入 reward(如温度标定后置信区间);
  • 与 model-based RL 结合,直接优化“进度可预测性”。

Replication angle

最低复现路径:先在 ManiRewardBench 子集重做 VOC;再把 接到离线 AWR/AWBC。关键超参是词表构造、时序平滑窗口、以及 reward clipping。

Key Figure: https://arxiv.org/html/2602.19313/Figure/method_example.png
Alt Figure: https://arxiv.org/html/2602.19313/x1.png

Graph: Paper Node 2602.19313