When Vision Overrides Language Evaluating and Mitigating Counterfactual Failures in VLAs

Title: When Vision Overrides Language: Evaluating and Mitigating Counterfactual Failures in VLAs
Authors: Yu Fang, Yuchun Feng, Dong Jing, Jiaqi Liu, Yue Yang, Zhenyu Wei, Daniel Szafir, Mingyu Ding
arXiv: https://arxiv.org/abs/2602.17659

Problem framing

论文抓住当前 VLA 的关键失效模式：语言条件在视觉偏置前“失语”。同一视觉场景下，当指令改成 counterfactual 语义时，策略仍偏向训练频繁动作，导致 intention-action gap 在部署期放大。

Core method

提出 LIBERO-CF 作为反事实指令基准，并给出推理期可插拔模块 CAG（Counterfactual Action Guidance）。CAG 用有条件策略 $π_{VLA} (a ∣ o, l)$ 与无语言分支 $π_{VA} (a ∣ o)$ 形成对照，等价于显式惩罚“仅视觉可解释”的动作。

Key equations and mechanisms

可理解为重加权选择：

a_{t}^{*} = ar g a max [s_{VLA} (a ∣ o_{t}, l_{t}) - λ s_{VA} (a ∣ o_{t})]

其中 $λ$ 控制去偏强度；当某动作主要由视觉先验驱动、与语言弱相关时，其得分被压制。该机制无需改预训练权重，适合既有 VLA 直接后挂。

Experiment reading guide

先读 LIBERO-CF 主表（语言跟随与任务成功双指标），再看 under-observed task 分层结果（最能体现 shortcut 抑制），最后看 real-robot 对比（验证并非纯 benchmark trick）。

Limitations

CAG 依赖一个可用 VA 分支，若 VA 本身偏置严重或分布外失真，去偏项可能误惩罚正确动作；此外其本质是推理期校正，不能替代数据层面的长尾再平衡。

Future work

建议把 CAG 扩展为训练期一致性正则（counterfactual consistency），并与 verification-time scaling 结合，形成“训练对齐+推理校验”双层防线。

Replication angle

复现优先级：1) 在公开 VLA checkpoint 上复现 LIBERO-CF 指标增益；2) 扫描 $λ$ 与任务难度关系；3) 检查语言稀有组合上的稳健区间。

Figure

arXiv 页面无稳定直链图片；建议参考 PDF Fig.2/Fig.4：https://arxiv.org/pdf/2602.17659.pdf

Graph: Paper Node 2602.17659