DySL-VLA Efficient Vision Language Action Inference via Dynamic Static Layer Skipping

Title: DySL-VLA: Efficient Vision-Language-Action Model Inference via Dynamic-Static Layer-Skipping for Robot Manipulation
Authors: Zebin Yang, Yijiahao Qi, Tong Xie, Bo Yu, Shaoshan Liu, Meng Li
arXiv: https://arxiv.org/abs/2602.22896

Problem framing

VLA 部署瓶颈已从“能不能做”转向“能否实时闭环做”。这篇工作抓住一个关键事实：同一任务轨迹中，动作重要性是时变的，不同时间步对模型计算精度需求不同，固定全层推理浪费巨大。

Core method

DySL-VLA 将网络层分为静态保留层与动态可跳层：

静态层保证基础感知-语言对齐；
动态层依据当前状态重要性打分决定是否执行。
通过“重要步高算力、非关键步低算力”的自适应推理，把延迟和性能做可控折中。

Key equations and mechanisms

可抽象为门控推理：

z_{t} = 1 [g (h_{t}) > τ], h_{t + 1} = f_{static} (h_{t}) + z_{t} f_{dynamic} (h_{t}) .

其中 $g (h_{t})$ 是动作关键度估计器， $τ$ 控制时延-精度 trade-off。训练时通常配合蒸馏或一致性约束，避免跳层后语义漂移。

Experiment reading guide

优先看三条曲线：

成功率 vs 推理延迟（是否 Pareto 前移）；
不同任务难度下跳层比例分布（是否真在关键步“舍不得跳”）；
端侧硬件吞吐与温度/功耗表现（部署价值关键证据）。

Limitations

门控误判会在关键步引入不可逆错误；
对任务分布变化敏感，跨场景阈值可能失效；
与动作频率强耦合，高频控制下门控噪声需要进一步抑制。

Future work

可结合 uncertainty-aware gating：当模型 epistemic uncertainty 升高时强制回退全层；也可与 token pruning 联合，做“层+token”双动态压缩。

Replication angle

建议复现时对同一 backbone 设置固定层跳与动态层跳两个 baseline，比较在 10Hz/20Hz 控制频率下的任务成功率与平均决策时延，并统计关键失败片段是否集中于门控误判。
图链接：https://arxiv.org/html/2602.22896v1/Figures/intro_action_importance.png

Graph: Paper Node 2602.22896