Title: DySL-VLA: Efficient Vision-Language-Action Model Inference via Dynamic-Static Layer-Skipping for Robot Manipulation
Authors: Zebin Yang, Yijiahao Qi, Tong Xie, Bo Yu, Shaoshan Liu, Meng Li
arXiv: https://arxiv.org/abs/2602.22896
Problem framing
VLA 部署瓶颈已从“能不能做”转向“能否实时闭环做”。这篇工作抓住一个关键事实:同一任务轨迹中,动作重要性是时变的,不同时间步对模型计算精度需求不同,固定全层推理浪费巨大。
Core method
DySL-VLA 将网络层分为静态保留层与动态可跳层:
- 静态层保证基础感知-语言对齐;
- 动态层依据当前状态重要性打分决定是否执行。
通过“重要步高算力、非关键步低算力”的自适应推理,把延迟和性能做可控折中。
Key equations and mechanisms
可抽象为门控推理:
其中 是动作关键度估计器, 控制时延-精度 trade-off。训练时通常配合蒸馏或一致性约束,避免跳层后语义漂移。
Experiment reading guide
优先看三条曲线:
- 成功率 vs 推理延迟(是否 Pareto 前移);
- 不同任务难度下跳层比例分布(是否真在关键步“舍不得跳”);
- 端侧硬件吞吐与温度/功耗表现(部署价值关键证据)。
Limitations
- 门控误判会在关键步引入不可逆错误;
- 对任务分布变化敏感,跨场景阈值可能失效;
- 与动作频率强耦合,高频控制下门控噪声需要进一步抑制。
Future work
可结合 uncertainty-aware gating:当模型 epistemic uncertainty 升高时强制回退全层;也可与 token pruning 联合,做“层+token”双动态压缩。
Replication angle
建议复现时对同一 backbone 设置固定层跳与动态层跳两个 baseline,比较在 10Hz/20Hz 控制频率下的任务成功率与平均决策时延,并统计关键失败片段是否集中于门控误判。
图链接:https://arxiv.org/html/2602.22896v1/Figures/intro_action_importance.png
Graph: Paper Node 2602.22896