Title: Sample-Efficient Real-World Dexterous Policy Fine-Tuning via Action-Chunked Critics and Normalizing Flows
Authors: Chenyu Yang, Denis Tarasov, Davide Liconti, Hehui Zheng, Robert K. Katzschmann
arXiv: https://arxiv.org/abs/2602.09580
SOFT-FLOW关注真机灵巧操作里最现实的问题:数据贵、更新不稳、动作分布多峰。高斯策略表达力不够,扩散策略又常带来较高训练与采样开销。作者选了一个折中且务实的路线:用 normalizing flow 建模动作块分布,同时把 critic 也提升到 chunk 级别,减少短视估值误差。
核心目标可写为 ,其中 flow 提供可逆映射与精确对数似然:
这样既保留了多模态表达能力,也让离线/离策略更新中的似然正则可计算。实验阅读建议优先看“同预算真机回合数”下的成功率对比,以及策略漂移与失稳统计。局限在于高维动作下雅可比计算成本仍不可忽视,chunk horizon 过长也会加剧 bootstrap 噪声。
Figures
