Title: DySL-VLA: Efficient Vision-Language-Action Model Inference via Dynamic-Static Layer-Skipping for Robot Manipulation
Authors: Zebin Yang, Yijiahao Qi, Tong Xie, Bo Yu, Shaoshan Liu, Meng Li
arXiv: https://arxiv.org/abs/2602.22896

Problem framing

VLA 部署瓶颈已从“能不能做”转向“能否实时闭环做”。这篇工作抓住一个关键事实:同一任务轨迹中,动作重要性是时变的,不同时间步对模型计算精度需求不同,固定全层推理浪费巨大。

Core method

DySL-VLA 将网络层分为静态保留层与动态可跳层:

  • 静态层保证基础感知-语言对齐;
  • 动态层依据当前状态重要性打分决定是否执行。
    通过“重要步高算力、非关键步低算力”的自适应推理,把延迟和性能做可控折中。

Key equations and mechanisms

可抽象为门控推理:

其中 是动作关键度估计器, 控制时延-精度 trade-off。训练时通常配合蒸馏或一致性约束,避免跳层后语义漂移。

Experiment reading guide

优先看三条曲线:

  1. 成功率 vs 推理延迟(是否 Pareto 前移);
  2. 不同任务难度下跳层比例分布(是否真在关键步“舍不得跳”);
  3. 端侧硬件吞吐与温度/功耗表现(部署价值关键证据)。

Limitations

  • 门控误判会在关键步引入不可逆错误;
  • 对任务分布变化敏感,跨场景阈值可能失效;
  • 与动作频率强耦合,高频控制下门控噪声需要进一步抑制。

Future work

可结合 uncertainty-aware gating:当模型 epistemic uncertainty 升高时强制回退全层;也可与 token pruning 联合,做“层+token”双动态压缩。

Replication angle

建议复现时对同一 backbone 设置固定层跳与动态层跳两个 baseline,比较在 10Hz/20Hz 控制频率下的任务成功率与平均决策时延,并统计关键失败片段是否集中于门控误判。
图链接:https://arxiv.org/html/2602.22896v1/Figures/intro_action_importance.png

Graph: Paper Node 2602.22896