Title: When Vision Overrides Language: Evaluating and Mitigating Counterfactual Failures in VLAs
Authors: Yu Fang, Yuchun Feng, Dong Jing, Jiaqi Liu, Yue Yang, Zhenyu Wei, Daniel Szafir, Mingyu Ding
arXiv: https://arxiv.org/abs/2602.17659

Problem framing

论文抓住当前 VLA 的关键失效模式:语言条件在视觉偏置前“失语”。同一视觉场景下,当指令改成 counterfactual 语义时,策略仍偏向训练频繁动作,导致 intention-action gap 在部署期放大。

Core method

提出 LIBERO-CF 作为反事实指令基准,并给出推理期可插拔模块 CAG(Counterfactual Action Guidance)。CAG 用有条件策略 与无语言分支 形成对照,等价于显式惩罚“仅视觉可解释”的动作。

Key equations and mechanisms

可理解为重加权选择:

其中 控制去偏强度;当某动作主要由视觉先验驱动、与语言弱相关时,其得分被压制。该机制无需改预训练权重,适合既有 VLA 直接后挂。

Experiment reading guide

先读 LIBERO-CF 主表(语言跟随与任务成功双指标),再看 under-observed task 分层结果(最能体现 shortcut 抑制),最后看 real-robot 对比(验证并非纯 benchmark trick)。

Limitations

CAG 依赖一个可用 VA 分支,若 VA 本身偏置严重或分布外失真,去偏项可能误惩罚正确动作;此外其本质是推理期校正,不能替代数据层面的长尾再平衡。

Future work

建议把 CAG 扩展为训练期一致性正则(counterfactual consistency),并与 verification-time scaling 结合,形成“训练对齐+推理校验”双层防线。

Replication angle

复现优先级:1) 在公开 VLA checkpoint 上复现 LIBERO-CF 指标增益;2) 扫描 与任务难度关系;3) 检查语言稀有组合上的稳健区间。

Figure

arXiv 页面无稳定直链图片;建议参考 PDF Fig.2/Fig.4:https://arxiv.org/pdf/2602.17659.pdf

Graph: Paper Node 2602.17659