BFA++ Hierarchical Best-Feature-Aware Token Prune for Multi-View Vision Language Action Model

Title: BFA++: Hierarchical Best-Feature-Aware Token Prune for Multi-View Vision Language Action Model
Authors: Haosheng Li, Weixin Mao, Zihan Lan, Hongwei Xiong, Hongan Wang, Chenyang Si, Ziwei Liu, Xiaoming Deng, Hua Chen
arXiv: https://arxiv.org/abs/2602.20566

Problem framing

多视角 VLA 的推理瓶颈是视觉 token 爆炸。直接套 VLM 的 pruning 往往损伤操作性能，因为没建模跨视角互补与任务阶段变化。

Core method

BFA++ 采用层级剪枝：先做视角内 token 重要性估计，再做视角间重要性选择，实现“先去噪、再去冗余”。

Key equations and mechanisms

两级重要性打分：

I_{v, i} = g_{in t r a} (h_{v, i}, q), J_{v} = g_{in t er} ({I_{v, i}}, q)

动态保留预算：按任务阶段调整各视角预算 $k_{v}$ ，避免关键阶段误剪核心视角。
效果：在 π0 / RDT 上同时提升成功率并获得 1.5-1.8x 加速。

Experiment reading guide

看 pruning ratio 与成功率 Pareto；再看真实任务 latency 与成功率的 jointly-optimal 点。

Limitations

重要性预测器本身也引入额外推理开销，低端边缘端需精简实现。

Future work

可与 early-exit/动作置信度联动，形成自适应“算力-精度”控制回路。

Replication angle

先在单任务多视角数据集做 token 可视化，验证“被剪 token 是否真是背景噪声”。

Key Figure: https://arxiv.org/html/2602.20566/x1.png

Graph: Paper Node 2602.20566