Title: Robust Skills, Brittle Grounding: Diagnosing Restricted Generalization in Vision-Language Action Policies via Multi-Object Picking
Authors: David Emukpere, Romain Deffayet, Jean-Michel Renders
arXiv: https://arxiv.org/abs/2602.24143

Problem framing

很多 VLA 在标准操作基准上成功率高,但论文指出这可能来自“物体-位置相关性投机”,而非真正语言到目标的稳健 grounding。

Core method

构造受控多物体抓取评测,逐级增加物体摆放扰动(直到全工作空间随机化),并引入未见 object-location 组合来诊断泛化边界。

Key equations and mechanisms

可用条件成功率分解理解其诊断逻辑:

其中当 偏离训练分布时,若成功率显著下降,说明策略依赖 spurious correlation 而非语义 grounding。

Experiment reading guide

优先看“随机化强度-成功率”退化曲线、held-out 配对实验、以及错误类型(抓错物体 vs 定位偏差)拆解。

Limitations

当前任务族聚焦 picking,结论向长时程装配/工具使用迁移仍需额外验证;诊断到问题后如何系统修复仍是开放点。

Future work

可结合因果数据重采样与反事实训练,减少 VLA 对对象共现偏差的依赖。

Replication angle

推荐把该评测协议接到现有 open-source VLA baseline,上线前先做 grounding stress test 作为必过门槛。

Figure: https://arxiv.org/html/2602.24143v1/2602.24143v1/icml2026/figures/fully_random_scatter.png

Graph: Paper Node 2602.24143