Title: When would Vision-Proprioception Policies Fail in Robotic Manipulation?
Authors: Jingxian Lu, Wenke Xia, Yuxuan Wu, Zhiwu Lu, Di Hu
arXiv: https://arxiv.org/abs/2602.12032

Problem framing

视觉+本体融合通常被视为默认最优,但实际泛化结论不一致。本文定位失败发生在动作阶段切换(需重新定位目标)的时间段。

Core method

通过时间受控实验拆分任务子阶段,发现训练会偏向“更快降损失”的 proprio 信号,压制视觉分支学习,导致转阶段时视觉信息利用不足。

Key equations and mechanisms

可把问题写成多模态梯度竞争:

作者据此设计缓解策略(阶段性/时间一致性约束)来提升视觉在关键子阶段的贡献。

Experiment reading guide

重点看:

  • phase-wise 性能而非全局平均;
  • 视觉恢复策略对 transition 子阶段成功率提升;
  • 不同任务复杂度下 suppression 是否加剧。

Limitations

  • 机制验证主要在给定操控基准;
  • 对多相机与触觉融合扩展尚少。

Future work

可结合门控融合或信息瓶颈,在线调节模态权重,避免单一模态主导训练动力学。

Replication angle

建议记录各子阶段梯度范数与注意力分布,直接验证“视觉被压制”假说。

  • arXiv 页面无稳定直链图片

Graph: Paper Node 2602.12032