Title: -StepNFT: Wider Space Needs Finer Steps in Online RL for Flow-based VLAs
Authors: Siting Wang, Xiaofeng Wang, Zheng Zhu, Minnan Pei, Xinyu Cui, Cheng Deng, Jian Zhao, Guan Huang, et al.
arXiv: https://arxiv.org/abs/2603.02083

arXiv 页面无稳定直链图片。

Problem framing

这篇工作瞄准 flow-based VLA 的一个核心瓶颈:在线 RL 微调时,多步采样导致似然不可 tractable、训练代价高且信用分配噪声大。作者把问题表述为“宽探索空间下,粗粒度更新步无法稳定对齐动作流形”,因此提出 step-wise 的负反馈精细更新机制。

Core method

核心是 -StepNFT:不依赖 critic/value 网络,也不需要显式 likelihood,直接在策略采样轨迹上做分步负感知微调。方法将在线更新拆成更细的时间/动作子步,并在每一步引入负样本导向约束,抑制错误动作方向放大。与传统 actor-critic 相比,它把学习信号从“值函数间接回传”改成“轨迹局部对比校正”。

Key equations and mechanisms

可抽象为每步目标:

其中 对应论文强调的 Negative-aware 机制。作者观点是:当动作空间宽度增大时,需要更细 step 才能让梯度方向与可行策略流形保持一致,否则会出现“探索变宽但更新变糙”的失配。

Experiment reading guide

优先看三组结果:1) 在线收敛速度与样本效率;2) 去掉 negative-aware 后性能退化幅度;3) 在大动作空间任务上的稳定性曲线。若这些实验一致支持“细步 + 负感知”组合优于 baseline,则该方法对 VLA 在线后训练有直接工程价值。

Limitations

方法依赖 step 划分粒度,可能引入新的超参敏感性;此外,critic-free 设计在高噪声奖励环境下的长期 credit assignment 能力仍需更多验证。

Future work

可探索自适应 step 调度(依据不确定性动态调粒度)与离线数据 warm-start;也可与 world model imagined rollouts 融合,形成更低真机成本的在线更新。

Replication angle

复现时建议先在中等维度 manipulation benchmark 上跑 ablation:固定网络与数据,仅替换更新规则;重点记录每步更新开销、奖励方差、失败轨迹类型分布,验证其“稳定性增益是否来自更细 step 而非更大算力”。

Graph: Paper Node 2603.02083