Title: Mean-Flow based One-Step Vision-Language-Action
Authors: Yang Chen, Xiaoguang Ma, Bin Zhao
arXiv: https://arxiv.org/abs/2603.01469
arXiv 页面无稳定直链图片。
Problem framing
FlowMatching VLA 在灵巧操作中表现好,但多步采样延迟高,影响在线闭环。该文目标是把迭代采样压缩为 one-step 推理。
Core method
通过 Mean-Flow 重参数化,把原本多步轨迹生成近似成一步映射,减少推理时延。核心价值是工程部署侧 latency-accuracy 折中。
Key equations and mechanisms
可抽象为学习单步映射:
并用 mean-flow 约束其与原 flow 轨迹分布一致。关键在分布保持与一步近似误差控制。
Experiment reading guide
优先比较延迟下降比例与成功率损失;若延迟显著下降且性能只小幅退化,适合边缘端机器人部署。
Limitations
一步近似可能在复杂长时程任务出现误差累积;对 out-of-distribution 场景稳定性仍需更多实证。
Future work
可做自适应“混合步数”推理:简单场景 one-step,困难场景回退多步。
Replication angle
复现重点是延迟测量 protocol(端到端 wall-clock),避免只报 GPU kernel 时间造成乐观偏差。
Graph: Paper Node 2603.01469