Robust Skills Brittle Grounding Diagnosing Restricted Generalization in Vision-Language Action Policies via Multi-Object Picking

Title: Robust Skills, Brittle Grounding: Diagnosing Restricted Generalization in Vision-Language Action Policies via Multi-Object Picking
Authors: David Emukpere, Romain Deffayet, Jean-Michel Renders
arXiv: https://arxiv.org/abs/2602.24143

Problem framing

很多 VLA 在标准操作基准上成功率高，但论文指出这可能来自“物体-位置相关性投机”，而非真正语言到目标的稳健 grounding。

Core method

构造受控多物体抓取评测，逐级增加物体摆放扰动（直到全工作空间随机化），并引入未见 object-location 组合来诊断泛化边界。

Key equations and mechanisms

可用条件成功率分解理解其诊断逻辑：

Succ = E_{(o, ℓ) \sim p_{t es t}} [I (π (x, text) \to o^{*})],

其中当 $p_{t es t} (o, ℓ)$ 偏离训练分布时，若成功率显著下降，说明策略依赖 spurious correlation 而非语义 grounding。

Experiment reading guide

优先看“随机化强度-成功率”退化曲线、held-out 配对实验、以及错误类型（抓错物体 vs 定位偏差）拆解。

Limitations

当前任务族聚焦 picking，结论向长时程装配/工具使用迁移仍需额外验证；诊断到问题后如何系统修复仍是开放点。

Future work

可结合因果数据重采样与反事实训练，减少 VLA 对对象共现偏差的依赖。

Replication angle

推荐把该评测协议接到现有 open-source VLA baseline，上线前先做 grounding stress test 作为必过门槛。

Figure: https://arxiv.org/html/2602.24143v1/2602.24143v1/icml2026/figures/fully_random_scatter.png

Graph: Paper Node 2602.24143