History-Conditioned Spatio-Temporal Visual Token Pruning for Efficient Vision-Language Navigation

Title: History-Conditioned Spatio-Temporal Visual Token Pruning for Efficient Vision-Language Navigation
Authors: Qitong Wang, Yijun Liang, Ming Li, Tianyi Zhou, Christopher Rasmussen
arXiv: https://arxiv.org/abs/2603.06480

Problem framing

长时程 VLN/VLA 推理里，token 不断堆积导致两类问题：

延迟上升，实时性恶化；
历史噪声淹没任务相关证据。
这篇工作要解决的是“效率-性能的结构性矛盾”，而不是再训一个更大模型。

Mechanism（怎么起作用）

方法是 history-conditioned 的时空 token 裁剪：

z_{t} = f_{p r u n e} (x_{t}, h_{1 : t - 1}, q)

其中 $x_{t}$ 是当前视觉 token， $h_{1 : t - 1}$ 是历史记忆， $q$ 是语言查询。核心是区分两类信息：

当前视角 token：保真优先（避免丢失即时可行动线索）
历史 token：压缩优先（去冗余、控时延）

本质上是一个推理期信息瓶颈设计，目标是在有限预算下保留“决策充分统计量”。

Foundational lineage（从哪里来）

在 A/B/C 子图中，B 的引用链偏导航效率：

2502.00931 VL-Nav
2506.19850 Unified VLA

与 A/C 的操控鲁棒主干重叠较弱，显示 B 更像“导航效率支线”，而非同一操控鲁棒家族。

链接：C Citation Subgraph

为什么值得读

部署现实导向：把延迟问题从系统侧“硬凑优化”转成可解释的 token 预算分配。
train-free 易接入：适合作为现有 VLA 系统的 inference wrapper。
可与 A/C 互补：A/C 解决正确性鲁棒，B 解决时延鲁棒。

该不该投入复现

结论：值得，但优先级次于 A/C（B+）。

原因：

如果当前瓶颈是“指令对齐/相机偏移”，先做 A/C 的收益更直接。
若你已有边缘实时导航压力，B 的价值会迅速上升。

下一步实验建议（可执行）

三段剪枝策略对照
- no prune / history-only prune / history+current prune。
Pareto 曲线
- 指标：成功率 vs 端到端时延 vs 能耗。
长指令敏感性
- 测试指令长度提升时裁剪策略是否误删语义关键 token。
与 C 协同检查
- 视角重映射会改变 token 分布，需验证 B 在 AnyCam 后是否仍稳定。

Replication angle（最小复现包）

先在离线轨迹上复现 attention 重要性排序稳定性。
再上 Go2/导航平台测真实闭环频率与失败恢复性。

Research action for Wanpeng

将 B 定位为“效率模块候选”，进入第二阶段验证。
当 A/C 打通后，用 B 做系统级 Pareto 优化，判断是否能在不掉成功率前提下降低时延。