Act Think or Abstain Complexity-Aware Adaptive Inference for Vision-Language-Action Models

Title: Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models
Authors: Riccardo Andrea Izzo, Gianluca Bardaro, Matteo Matteucci
arXiv: https://arxiv.org/abs/2603.05147

这篇工作抓住了 VLA 走向真实部署的核心瓶颈：并非每个状态都值得同等推理开销。作者提出按任务复杂度动态选择“直接执行 / 深度推理 / 拒绝执行（abstain）”，本质是把计算预算分配问题显式化。

其思想可形式化为一个门控决策：给定状态 $s$ ，选择模式 $m \in {act, think, abstain}$ ，最大化

J = E [R (s, m)] - β Cost (m) - γ Risk (s, m) .

这里 $Risk$ 对应灾难动作概率， $abstain$ 提供安全阀，避免“低置信但硬执行”。

机制深度在于它把 uncertainty estimation 与 action generation 绑定，而非事后阈值裁剪。若实现合理，将显著改善长时程任务中的错误累积。

对 Wanpeng 的价值：这直接连接 VLA 的“推理-控制解耦”路线，可与已有 StreamVLA/Bootstrapping 类思路形成互补：在不降太多成功率的前提下压低平均时延并提高安全性。

需要重点核查三点：

复杂度估计器是否可泛化，还是只在训练分布有效；
abstain 触发率与成功率的 Pareto 曲线；
在真实机器人上是否出现“过度保守”导致任务停滞。

若文中给出严格的风险-效率权衡曲线和真实部署实验，这篇可作为“VLA可部署性设计范式”重点跟进。

Graph: Paper Node 2603.05147