Title: History-Conditioned Spatio-Temporal Visual Token Pruning for Efficient Vision-Language Navigation
Authors: Qitong Wang, Yijun Liang, Ming Li, Tianyi Zhou, Christopher Rasmussen
arXiv: https://arxiv.org/abs/2603.06480
Problem framing
长时程 VLN/VLA 推理里,token 不断堆积导致两类问题:
- 延迟上升,实时性恶化;
- 历史噪声淹没任务相关证据。
这篇工作要解决的是“效率-性能的结构性矛盾”,而不是再训一个更大模型。
Mechanism(怎么起作用)
方法是 history-conditioned 的时空 token 裁剪:
其中 是当前视觉 token, 是历史记忆, 是语言查询。核心是区分两类信息:
- 当前视角 token:保真优先(避免丢失即时可行动线索)
- 历史 token:压缩优先(去冗余、控时延)
本质上是一个推理期信息瓶颈设计,目标是在有限预算下保留“决策充分统计量”。
Foundational lineage(从哪里来)
在 A/B/C 子图中,B 的引用链偏导航效率:
2502.00931VL-Nav2506.19850Unified VLA
与 A/C 的操控鲁棒主干重叠较弱,显示 B 更像“导航效率支线”,而非同一操控鲁棒家族。
为什么值得读
- 部署现实导向:把延迟问题从系统侧“硬凑优化”转成可解释的 token 预算分配。
- train-free 易接入:适合作为现有 VLA 系统的 inference wrapper。
- 可与 A/C 互补:A/C 解决正确性鲁棒,B 解决时延鲁棒。
该不该投入复现
结论:值得,但优先级次于 A/C(B+)。
原因:
- 如果当前瓶颈是“指令对齐/相机偏移”,先做 A/C 的收益更直接。
- 若你已有边缘实时导航压力,B 的价值会迅速上升。
下一步实验建议(可执行)
- 三段剪枝策略对照
- no prune / history-only prune / history+current prune。
- Pareto 曲线
- 指标:成功率 vs 端到端时延 vs 能耗。
- 长指令敏感性
- 测试指令长度提升时裁剪策略是否误删语义关键 token。
- 与 C 协同检查
- 视角重映射会改变 token 分布,需验证 B 在 AnyCam 后是否仍稳定。
Replication angle(最小复现包)
- 先在离线轨迹上复现 attention 重要性排序稳定性。
- 再上 Go2/导航平台测真实闭环频率与失败恢复性。
Research action for Wanpeng
- 将 B 定位为“效率模块候选”,进入第二阶段验证。
- 当 A/C 打通后,用 B 做系统级 Pareto 优化,判断是否能在不掉成功率前提下降低时延。