UAOR Uncertainty-aware Observation Reinjection for Vision-Language-Action Models

Title: UAOR: Uncertainty-aware Observation Reinjection for Vision-Language-Action Models
Authors: Jiabing Yang, Yixiang Chen, Yuan Xu, Peiyan Li, Xiangnan Wu, Zichen Wen, Bowen Fang, Tao Yu
arXiv: https://arxiv.org/abs/2602.18020

Problem framing

VLA 在真实操作里常见两难：引入更多观测（深度、点云、检测器）能提性能，但会显著增加系统复杂度和数据成本。UAOR 的切入点是：不盲目加新传感器，而是在现有视觉流中识别“不确定片段”，只在必要时做 observation reinjection，提升稳健性/效率比。

Core method

框架由三步组成：

对当前观测-动作预测建立不确定性估计；
当不确定性超过阈值时触发 reinjection（重读局部观测或重加权视觉token）；
把 reinjection 后的上下文回注入动作解码器，抑制错误传播。

这本质是“按需感知”，而非全时高成本感知。

Key equations and mechanisms

机制可抽象为门控策略：

g_{t} = 1 {u_{t} > a u}, i l d e z_{t} = (1 - g_{t}) z_{t} + g_{t} R (z_{t}, o_{t})

其中 $u_{t}$ 为不确定性估计， $a u$ 为触发阈值， $R$ 表示 reinjection 变换。动作头在 $i l d e z_{t}$ 上解码：

a_{t} \sim π_{h} e t a (a ∣ i l d e z_{t}, l)

关键不在更复杂模型，而在“错误高发时刻”的选择性纠偏。

Experiment reading guide

重点看：

成功率 vs 计算开销：是否在接近原算力下提升鲁棒性；
遮挡/干扰场景：reinjection 触发频率与收益是否正相关；
阈值敏感性： $a u$ 太低会过触发、太高会漏触发。

Limitations

不确定性估计本身若校准不佳，会误触发；
对极端长时程任务，局部纠偏可能不足；
仍需与下游控制时延预算联合调参。

Future work

可结合 conformal calibration 或贝叶斯头改进 $u_{t}$ 可置信度；与层级 planner 联合，让 reinjection 不只修正瞬时动作，也修正子目标选择。

Replication angle

建议先在一个含遮挡扰动的标准操作基准复现触发机制，再迁移到实机；记录“每次触发是否真的减少失败”而不只看平均成功率。

Figure: arXiv source 可提取 UAOR pipeline 图，适合作为“方法总览图”。

Graph: Paper Node 2602.18020