When would Vision-Proprioception Policies Fail in Robotic Manipulation?

Title: When would Vision-Proprioception Policies Fail in Robotic Manipulation?
Authors: Jingxian Lu, Wenke Xia, Yuxuan Wu, Zhiwu Lu, Di Hu
arXiv: https://arxiv.org/abs/2602.12032

Problem framing

视觉+本体融合通常被视为默认最优，但实际泛化结论不一致。本文定位失败发生在动作阶段切换（需重新定位目标）的时间段。

Core method

通过时间受控实验拆分任务子阶段，发现训练会偏向“更快降损失”的 proprio 信号，压制视觉分支学习，导致转阶段时视觉信息利用不足。

Key equations and mechanisms

可把问题写成多模态梯度竞争：

∥ ab l a_{h e t a} L_{p ro p} ∥ ≫ ∥ ab l a_{h e t a} L_{v i s} ∥ \Rightarrow e x t v i s u a l s u pp ress i o n

作者据此设计缓解策略（阶段性/时间一致性约束）来提升视觉在关键子阶段的贡献。

Experiment reading guide

重点看：

phase-wise 性能而非全局平均；
视觉恢复策略对 transition 子阶段成功率提升；
不同任务复杂度下 suppression 是否加剧。

Limitations

机制验证主要在给定操控基准；
对多相机与触觉融合扩展尚少。

Future work

可结合门控融合或信息瓶颈，在线调节模态权重，避免单一模态主导训练动力学。

Replication angle

建议记录各子阶段梯度范数与注意力分布，直接验证“视觉被压制”假说。

Figure links

arXiv 页面无稳定直链图片

Graph: Paper Node 2602.12032