Medium 2603.01469 Mean Flow based One Step Vision Language Action

Title: Mean-Flow based One-Step Vision-Language-Action
Authors: Yang Chen, Xiaoguang Ma, Bin Zhao
arXiv: https://arxiv.org/abs/2603.01469

arXiv 页面无稳定直链图片。

Problem framing

FlowMatching VLA 在灵巧操作中表现好，但多步采样延迟高，影响在线闭环。该文目标是把迭代采样压缩为 one-step 推理。

通过 Mean-Flow 重参数化，把原本多步轨迹生成近似成一步映射，减少推理时延。核心价值是工程部署侧 latency-accuracy 折中。

可抽象为学习单步映射：

a = g_{t} h e t a (o, l)

并用 mean-flow 约束其与原 flow 轨迹分布一致。关键在分布保持与一步近似误差控制。

优先比较延迟下降比例与成功率损失；若延迟显著下降且性能只小幅退化，适合边缘端机器人部署。

一步近似可能在复杂长时程任务出现误差累积；对 out-of-distribution 场景稳定性仍需更多实证。

可做自适应“混合步数”推理：简单场景 one-step，困难场景回退多步。

复现重点是延迟测量 protocol（端到端 wall-clock），避免只报 GPU kernel 时间造成乐观偏差。

Graph: Paper Node 2603.01469