Rethinking the Practicality of Vision Language Action Model

Title: Rethinking the Practicality of Vision-language-action Model: A Comprehensive Benchmark and An Improved Baseline
Authors: Wenxuan Song, Jiayi Chen, Xiaoquan Sun, Huashuo Lei, Yikai Qin, Wei Zhao, Pengxiang Ding, Han Zhao, Tongxin Wang, Pengxu Hou, Zhide Zhong, Haodong Yan, Donglin Wang, Jun Ma, Haoang Li
arXiv: https://arxiv.org/abs/2602.22663

Problem framing

这篇论文直指当前 VLA 的工程痛点：参数规模过大、预训练成本过高、跨本体可迁移性不足。它不是单纯再提一个模型，而是先补“可比较、可部署”的评测基础设施。

Core method

作者给出 CEBench（跨本体、仿真+真机、含 domain randomization）并提出 improved baseline。核心价值在于把“泛化能力”从单一平台成绩，升级为跨 embodiment 的系统比较；同时强调数据效率而非盲目扩参。

Key equations and mechanisms

方法层不是单一新损失，而是训练协议级改进。可概括为

θ min L_{act} + α L_{lang-align} + β L_{embodiment-consistency} .

其中跨本体一致性项促使动作表示在不同机器人形态间保持可迁移结构，是其“practicality”主线的数学抓手。

Experiment reading guide

建议先看：

不同 embodiment 间 zero/few-shot transfer；
同等预算下参数规模与成功率曲线（是否存在更优“甜点区”）；
真机与仿真排名一致性（防止 benchmark 只在 sim 有效）。

Limitations

benchmark 构成仍可能偏向特定任务家族；
improved baseline 的泛化上限受数据多样性约束；
对长时序记忆依赖任务的评估覆盖可能不足。

Future work

可进一步引入“跨 embodiment 动作语义 tokenization”标准，统一末端执行器差异；并把能耗、时延纳入主指标，形成更贴近部署的 VLA 评价体系。

Replication angle

若要复现，先固定预算复跑 baseline 与 improved baseline，记录“参数量-延迟-成功率”三维指标；再做跨机械臂与移动操作平台迁移，验证是否存在稳定的迁移收益。
图链接：https://arxiv.org/html/2602.22663v1/x1.png

Graph: Paper Node 2602.22663