Title: Latent Policy Steering through One-Step Flow Policies
Authors: Hokyun Im, Andrey Kolobov, Jianlong Fu, Youngwoon Lee
arXiv: https://arxiv.org/abs/2603.05296

论文聚焦离线 RL 的经典矛盾:收益最大化与行为约束难同时稳定。作者提出在潜空间中做 policy steering,并结合 one-step flow policy 降低动作近似误差。

若可复现,其核心贡献是把“支持集内优化”从经验调参转为结构化约束,理论上可减少离线 RL 对超参数敏感性。

与 Robotics/VLA 的连接点在于:可作为离线数据驱动策略微调模块,尤其适用于高风险真实机器人场景。

Graph: Paper Node 2603.05296