Title: BFA++: Hierarchical Best-Feature-Aware Token Prune for Multi-View Vision Language Action Model
Authors: Haosheng Li, Weixin Mao, Zihan Lan, Hongwei Xiong, Hongan Wang, Chenyang Si, Ziwei Liu, Xiaoming Deng, Hua Chen
arXiv: https://arxiv.org/abs/2602.20566
Problem framing
多视角 VLA 的推理瓶颈是视觉 token 爆炸。直接套 VLM 的 pruning 往往损伤操作性能,因为没建模跨视角互补与任务阶段变化。
Core method
BFA++ 采用层级剪枝:先做视角内 token 重要性估计,再做视角间重要性选择,实现“先去噪、再去冗余”。
Key equations and mechanisms
- 两级重要性打分:
- 动态保留预算:按任务阶段调整各视角预算 ,避免关键阶段误剪核心视角。
- 效果:在 π0 / RDT 上同时提升成功率并获得 1.5-1.8x 加速。
Experiment reading guide
看 pruning ratio 与成功率 Pareto;再看真实任务 latency 与成功率的 jointly-optimal 点。
Limitations
重要性预测器本身也引入额外推理开销,低端边缘端需精简实现。
Future work
可与 early-exit/动作置信度联动,形成自适应“算力-精度”控制回路。
Replication angle
先在单任务多视角数据集做 token 可视化,验证“被剪 token 是否真是背景噪声”。
Key Figure: https://arxiv.org/html/2602.20566/x1.png
Graph: Paper Node 2602.20566