Title: History-Conditioned Spatio-Temporal Visual Token Pruning for Efficient Vision-Language Navigation
Authors: Qitong Wang, Yijun Liang, Ming Li, Tianyi Zhou, Christopher Rasmussen
arXiv: https://arxiv.org/abs/2603.06480

Problem framing

长时程 VLN/VLA 推理里,token 不断堆积导致两类问题:

  1. 延迟上升,实时性恶化;
  2. 历史噪声淹没任务相关证据。
    这篇工作要解决的是“效率-性能的结构性矛盾”,而不是再训一个更大模型。

Mechanism(怎么起作用)

方法是 history-conditioned 的时空 token 裁剪:

其中 是当前视觉 token, 是历史记忆, 是语言查询。核心是区分两类信息:

  • 当前视角 token:保真优先(避免丢失即时可行动线索)
  • 历史 token:压缩优先(去冗余、控时延)

本质上是一个推理期信息瓶颈设计,目标是在有限预算下保留“决策充分统计量”。

Foundational lineage(从哪里来)

在 A/B/C 子图中,B 的引用链偏导航效率:

  • 2502.00931 VL-Nav
  • 2506.19850 Unified VLA

与 A/C 的操控鲁棒主干重叠较弱,显示 B 更像“导航效率支线”,而非同一操控鲁棒家族。

链接:C Citation Subgraph

为什么值得读

  1. 部署现实导向:把延迟问题从系统侧“硬凑优化”转成可解释的 token 预算分配。
  2. train-free 易接入:适合作为现有 VLA 系统的 inference wrapper。
  3. 可与 A/C 互补:A/C 解决正确性鲁棒,B 解决时延鲁棒。

该不该投入复现

结论:值得,但优先级次于 A/C(B+)。

原因:

  • 如果当前瓶颈是“指令对齐/相机偏移”,先做 A/C 的收益更直接。
  • 若你已有边缘实时导航压力,B 的价值会迅速上升。

下一步实验建议(可执行)

  1. 三段剪枝策略对照
    • no prune / history-only prune / history+current prune。
  2. Pareto 曲线
    • 指标:成功率 vs 端到端时延 vs 能耗。
  3. 长指令敏感性
    • 测试指令长度提升时裁剪策略是否误删语义关键 token。
  4. 与 C 协同检查
    • 视角重映射会改变 token 分布,需验证 B 在 AnyCam 后是否仍稳定。

Replication angle(最小复现包)

  • 先在离线轨迹上复现 attention 重要性排序稳定性。
  • 再上 Go2/导航平台测真实闭环频率与失败恢复性。

Research action for Wanpeng

  • 将 B 定位为“效率模块候选”,进入第二阶段验证。
  • 当 A/C 打通后,用 B 做系统级 Pareto 优化,判断是否能在不掉成功率前提下降低时延。