2602.12281 VLA对齐中的验证扩展优于策略扩展

Title: Scaling Verification Can Be More Effective than Scaling Policy Learning for Vision-Language-Action Alignment
Authors: Jacky Kwok, Xilun Zhang, Mengdi Xu, Yuejiang Liu, Azalia Mirhoseini, Chelsea Finn, Marco Pavone
arXiv: https://arxiv.org/abs/2602.12281

关键图见：./out/telegram-cards/2026-02-13/2602.12281-fig1.jpg。

Problem framing

VLA 常见“理解了指令但动作不对齐”的 intention-action gap。本文核心判断是：在同等数据下，测试时做“候选动作+验证器筛选”的计算扩展，可能比继续扩展策略预训练更有效。

Core method

提出 CoVer（contrastive verifier）+ 分层验证推理：

先用 VLM 生成多种指令改写；
每个改写下采样多个动作候选；
用验证器在“指令-视觉-动作块”空间打分并选择最优动作轨迹。

Key equations and mechanisms

可写成两层选择：

\overset{a}{^} = ar g a \in A (r), r \in R max s_{ψ} (o, r, a),

其中 $R$ 是改写集合， $A (r)$ 是对应动作候选集， $s_{ψ}$ 为对齐分数。论文强调“同时扩展 $∣ R ∣$ 与 $∣ A ∣$ ”的测试时扩展律。

Experiment reading guide

优先看：

在 SIMPLER 上 ID/OOD 分别 +22%/+13% 的收益来自哪个环节（改写数 vs 候选数）；
真实机器人 +45% 改进是否稳定跨任务；
verifier 的误选模式（语义正确但动力学不可行，或相反）。

Limitations

强依赖测试时算力与候选多样性；
若 verifier 对接触动力学理解不足，可能偏好“语义像对但物理不可执行”的动作。

Future work

把接触可行性/安全约束并入 verifier；
做预算感知推理，动态分配改写与候选采样数量。

Graph: Paper Node 2602.12281