TOPReward Token Probabilities as Hidden Zero Shot Rewards for Robotics

Title: TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics
Authors: Shirui Chen, Cole Harrison, Ying-Chun Lee, Angela Jin Yang, Zhongzheng Ren, Lillian J. Ratliff, Jiafei Duan, Dieter Fox, Ranjay Krishna
arXiv: https://arxiv.org/abs/2602.19313

Problem framing

VLA 在真实机器人 RL 中最卡的不是策略容量，而是奖励：稀疏、昂贵、跨任务不可迁移。本文瞄准“零训练 reward model”路线，核心问题是：能不能直接从预训练视频 VLM 里抽出可单调跟踪任务进度的价值信号，而不再做任务特定标注与微调。

Core method

TOPReward 不再让 VLM “生成一个百分比数字”，而是读取其内部 token 概率分布，把“完成态 token 质量”与“未完成 token 质量”的相对变化当作进度信号。作者认为开源模型失败常来自数值文本输出偏置，而非时序理解缺失。

可写成：给定时刻 $t$ 的视觉输入 $o_{t}$ ，对两组词表 $V_{d o n e}, V_{t o d o}$ 计算

r_{t} = lo g w \in V_{d o n e} \sum p_{θ} (w ∣ o_{t}) - lo g w \in V_{t o d o} \sum p_{θ} (w ∣ o_{t})

再做时序平滑得到进度估计 $\overset{g}{^}_{t}$ ，要求随任务推进近似单调上升。

Key equations and mechanisms

概率比值机制：用 log-mass 差替代单 token 数值回归，降低 tokenizer 数字偏置。
时间一致性机制：对 $r_{t}$ 施加平滑/单调约束，使其可作为 dense reward。
下游耦合机制：把 $\overset{g}{^}_{t}$ 用于 success detection 与 advantage-weighted BC，形成“零样本奖励 → 可训练策略”闭环。

Experiment reading guide

先看三组结果：

130+ 真实任务 VOC 指标：检验是否真能跨平台泛化。
与 GVL 对比：关注开源 VLM 上是否从近零相关提升到可用区间。
SO-100 实机微调收益：看 reward 质量能否转化为成功率增益。

Limitations

仍依赖 prompt 与词表设计，任务语言描述质量会影响稳定性。
价值信号是“隐变量代理”，在多阶段失败/回退场景可能出现非单调抖动。
对极端遮挡/视角突变场景，token mass 与真实进度可能错配。

Future work

学习任务自适应词表 $V_{d o n e}, V_{t o d o}$ ；
将不确定性估计并入 reward（如温度标定后置信区间）；
与 model-based RL 结合，直接优化“进度可预测性”。

Replication angle

最低复现路径：先在 ManiRewardBench 子集重做 VOC；再把 $\overset{g}{^}_{t}$ 接到离线 AWR/AWBC。关键超参是词表构造、时序平滑窗口、以及 reward clipping。

Key Figure: https://arxiv.org/html/2602.19313/Figure/method_example.png
Alt Figure: https://arxiv.org/html/2602.19313/x1.png

Graph: Paper Node 2602.19313