Title: When would Vision-Proprioception Policies Fail in Robotic Manipulation?
Authors: Jingxian Lu, Wenke Xia, Yuxuan Wu, Zhiwu Lu, Di Hu
arXiv: https://arxiv.org/abs/2602.12032
Problem framing
视觉+本体融合通常被视为默认最优,但实际泛化结论不一致。本文定位失败发生在动作阶段切换(需重新定位目标)的时间段。
Core method
通过时间受控实验拆分任务子阶段,发现训练会偏向“更快降损失”的 proprio 信号,压制视觉分支学习,导致转阶段时视觉信息利用不足。
Key equations and mechanisms
可把问题写成多模态梯度竞争:
作者据此设计缓解策略(阶段性/时间一致性约束)来提升视觉在关键子阶段的贡献。
Experiment reading guide
重点看:
- phase-wise 性能而非全局平均;
- 视觉恢复策略对 transition 子阶段成功率提升;
- 不同任务复杂度下 suppression 是否加剧。
Limitations
- 机制验证主要在给定操控基准;
- 对多相机与触觉融合扩展尚少。
Future work
可结合门控融合或信息瓶颈,在线调节模态权重,避免单一模态主导训练动力学。
Replication angle
建议记录各子阶段梯度范数与注意力分布,直接验证“视觉被压制”假说。
Figure links
- arXiv 页面无稳定直链图片
Graph: Paper Node 2602.12032