Title: Selective Perception for Robot: Task-Aware Attention in Multimodal VLA
Authors: Young-Chae Son, Jung-Woo Lee, Yoon-Ji Choi, Dae-Kwan Ko, Soo-Chul Lim
arXiv: https://arxiv.org/abs/2602.15543

Problem framing

多视角 VLA 常用静态融合:每一帧、每个视角都进同样算子,导致两类问题——算力浪费与背景噪声注入。该文关注“任务相关性感知”:让模型按任务动态挑选最有信息的观察通道。

Core method

提出轻量自适应路由模块,对多模态输入做 task-aware gating:

  • 先用语言指令与当前状态生成注意分配;
  • 再仅对高价值视角/模态做高开销融合,低价值通道走轻路径。

可抽象为:

其中 随任务变化,达到“按需感知”。

Experiment reading guide

建议重点读:

  1. 计算量-性能曲线(FLOPs 降幅 vs 成功率);
  2. 干扰背景或遮挡条件下鲁棒性提升;
  3. 多任务场景中 attention 分配是否符合人类直觉。

Limitations

  • 动态路由在极端实时约束下仍有调度开销;
  • 若任务描述模糊,attention 可能抖动;
  • 对跨机器人本体泛化还缺更系统评测。

Future work

可引入 uncertainty-aware gating(置信度驱动路由)与 memory-based token 复用,进一步降低时延并增强长时程稳定性。

Replication angle

先复现静态融合 baseline,再逐步加入 task-aware 路由与稀疏化约束,观察不同任务簇的收益差异。

Graph: Paper Node 2602.15543