Title: UAOR: Uncertainty-aware Observation Reinjection for Vision-Language-Action Models
Authors: Jiabing Yang, Yixiang Chen, Yuan Xu, Peiyan Li, Xiangnan Wu, Zichen Wen, Bowen Fang, Tao Yu
arXiv: https://arxiv.org/abs/2602.18020

Problem framing

VLA 在真实操作里常见两难:引入更多观测(深度、点云、检测器)能提性能,但会显著增加系统复杂度和数据成本。UAOR 的切入点是:不盲目加新传感器,而是在现有视觉流中识别“不确定片段”,只在必要时做 observation reinjection,提升稳健性/效率比。

Core method

框架由三步组成:

  1. 对当前观测-动作预测建立不确定性估计;
  2. 当不确定性超过阈值时触发 reinjection(重读局部观测或重加权视觉token);
  3. 把 reinjection 后的上下文回注入动作解码器,抑制错误传播。

这本质是“按需感知”,而非全时高成本感知。

Key equations and mechanisms

机制可抽象为门控策略:

其中 为不确定性估计, 为触发阈值, 表示 reinjection 变换。动作头在 上解码:

关键不在更复杂模型,而在“错误高发时刻”的选择性纠偏。

Experiment reading guide

重点看:

  • 成功率 vs 计算开销:是否在接近原算力下提升鲁棒性;
  • 遮挡/干扰场景:reinjection 触发频率与收益是否正相关;
  • 阈值敏感性 太低会过触发、太高会漏触发。

Limitations

  • 不确定性估计本身若校准不佳,会误触发;
  • 对极端长时程任务,局部纠偏可能不足;
  • 仍需与下游控制时延预算联合调参。

Future work

可结合 conformal calibration 或贝叶斯头改进 可置信度;与层级 planner 联合,让 reinjection 不只修正瞬时动作,也修正子目标选择。

Replication angle

建议先在一个含遮挡扰动的标准操作基准复现触发机制,再迁移到实机;记录“每次触发是否真的减少失败”而不只看平均成功率。

Figure: arXiv source 可提取 UAOR pipeline 图,适合作为“方法总览图”。

Graph: Paper Node 2602.18020