Title: Mean-Flow based One-Step Vision-Language-Action
Authors: Yang Chen, Xiaoguang Ma, Bin Zhao
arXiv: https://arxiv.org/abs/2603.01469

arXiv 页面无稳定直链图片。

Problem framing

FlowMatching VLA 在灵巧操作中表现好,但多步采样延迟高,影响在线闭环。该文目标是把迭代采样压缩为 one-step 推理。

Core method

通过 Mean-Flow 重参数化,把原本多步轨迹生成近似成一步映射,减少推理时延。核心价值是工程部署侧 latency-accuracy 折中。

Key equations and mechanisms

可抽象为学习单步映射:

并用 mean-flow 约束其与原 flow 轨迹分布一致。关键在分布保持与一步近似误差控制。

Experiment reading guide

优先比较延迟下降比例与成功率损失;若延迟显著下降且性能只小幅退化,适合边缘端机器人部署。

Limitations

一步近似可能在复杂长时程任务出现误差累积;对 out-of-distribution 场景稳定性仍需更多实证。

Future work

可做自适应“混合步数”推理:简单场景 one-step,困难场景回退多步。

Replication angle

复现重点是延迟测量 protocol(端到端 wall-clock),避免只报 GPU kernel 时间造成乐观偏差。

Graph: Paper Node 2603.01469