Title: Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models
Authors: Riccardo Andrea Izzo, Gianluca Bardaro, Matteo Matteucci
arXiv: https://arxiv.org/abs/2603.05147
这篇工作抓住了 VLA 走向真实部署的核心瓶颈:并非每个状态都值得同等推理开销。作者提出按任务复杂度动态选择“直接执行 / 深度推理 / 拒绝执行(abstain)”,本质是把计算预算分配问题显式化。
其思想可形式化为一个门控决策:给定状态 ,选择模式 ,最大化
这里 对应灾难动作概率, 提供安全阀,避免“低置信但硬执行”。
机制深度在于它把 uncertainty estimation 与 action generation 绑定,而非事后阈值裁剪。若实现合理,将显著改善长时程任务中的错误累积。
对 Wanpeng 的价值:这直接连接 VLA 的“推理-控制解耦”路线,可与已有 StreamVLA/Bootstrapping 类思路形成互补:在不降太多成功率的前提下压低平均时延并提高安全性。
需要重点核查三点:
- 复杂度估计器是否可泛化,还是只在训练分布有效;
- abstain 触发率与成功率的 Pareto 曲线;
- 在真实机器人上是否出现“过度保守”导致任务停滞。
若文中给出严格的风险-效率权衡曲线和真实部署实验,这篇可作为“VLA可部署性设计范式”重点跟进。
Graph: Paper Node 2603.05147