Title: Scaling Verification Can Be More Effective than Scaling Policy Learning for Vision-Language-Action Alignment
Authors: Jacky Kwok, Xilun Zhang, Mengdi Xu, Yuejiang Liu, Azalia Mirhoseini, Chelsea Finn, Marco Pavone
arXiv: https://arxiv.org/abs/2602.12281

关键图见:./out/telegram-cards/2026-02-13/2602.12281-fig1.jpg

Problem framing

VLA 常见“理解了指令但动作不对齐”的 intention-action gap。本文核心判断是:在同等数据下,测试时做“候选动作+验证器筛选”的计算扩展,可能比继续扩展策略预训练更有效。

Core method

提出 CoVer(contrastive verifier)+ 分层验证推理:

  • 先用 VLM 生成多种指令改写;
  • 每个改写下采样多个动作候选;
  • 用验证器在“指令-视觉-动作块”空间打分并选择最优动作轨迹。

Key equations and mechanisms

可写成两层选择:

其中 是改写集合, 是对应动作候选集, 为对齐分数。论文强调“同时扩展 ”的测试时扩展律。

Experiment reading guide

优先看:

  1. 在 SIMPLER 上 ID/OOD 分别 +22%/+13% 的收益来自哪个环节(改写数 vs 候选数);
  2. 真实机器人 +45% 改进是否稳定跨任务;
  3. verifier 的误选模式(语义正确但动力学不可行,或相反)。

Limitations

  • 强依赖测试时算力与候选多样性;
  • 若 verifier 对接触动力学理解不足,可能偏好“语义像对但物理不可执行”的动作。

Future work

  • 把接触可行性/安全约束并入 verifier;
  • 做预算感知推理,动态分配改写与候选采样数量。

Graph: Paper Node 2602.12281