Title: How Fast Can I Run My VLA? Demystifying VLA Inference Performance with VLA-Perf
Authors: Wenqi Jiang, Jason Clemons, Karu Sankaralingam, Christos Kozyrakis
arXiv: https://arxiv.org/abs/2602.18397

Problem framing

VLA 上实机时最硬约束是时延,但目前缺乏系统化性能画像工具。VLA-Perf 把“模型结构×推理系统×硬件”的组合空间显式 benchmark 化,回答“在哪些配置下可实时”。

Core method

构建端到端推理性能分析栈:分解视觉编码、语言上下文、动作解码等阶段,测吞吐、延迟、显存、批大小敏感性,并给出系统级瓶颈定位。

Key equations and mechanisms

更偏性能工程,核心指标是时延预算分解:

并以实时约束 评估可部署性。

Experiment reading guide

优先看不同模型规模与 runtime 优化(量化、并行、缓存)对 的影响曲线,判断“能跑”与“跑得稳”的分界。

Limitations

这是测量框架,不直接提升策略质量;结论依赖硬件栈与实现版本。

Future work

可与策略训练联动,把 latency-aware objective 直接并入模型设计。

Replication angle

建议把你的候选 VLA 先过一遍 VLA-Perf,再决定是否值得上真机大规模实验。

Graph: Paper Node 2602.18397