Title: IG-RFT: An Interaction-Guided RL Framework for VLA Models in Long-Horizon Robotic Manipulation
Authors: Zhian Su, Weijie Kong, Haonan Dong, Huixu Dong
arXiv: https://arxiv.org/abs/2602.20715

Problem framing

VLA 在长程真实操作中的主要瓶颈是分布偏移下的 credit assignment:纯 SFT 泛化差,直接 RL 又样本昂贵且不稳定。本文用“交互状态感知探索 + 混合密集奖励”提升实机可训练性。

Core method

IG-RFT 三阶段:SFT 预热、Offline RL、Human-in-the-Loop RL。核心算法 IG-AWR 会根据交互状态动态调节 advantage 权重与探索强度,避免在低信息阶段过度更新。

Key equations and mechanisms

  • 交互引导 AWR 权重

由交互状态 控制探索/保守程度。

  • 混合奖励

把子任务密集信号与轨迹级终局信号联合,缓解稀疏奖励。

  • 分阶段优化:先离线稳定策略,再少量真人闭环校正。

Experiment reading guide

重点看四个长程真实任务的成功率提升(SFT 18.8% → IG-RFT 85.0%)与 ablation(去掉 IG-AWR/混合奖励后的降幅)。

Limitations

奖励设计仍有任务工程成分;HITL 阶段标注/干预成本未完全消除。

Future work

可以把交互状态建模为 POMDP belief,并做风险敏感优势加权。

Replication angle

建议先在单机械臂两阶段任务做小规模验证,观测 调度对稳定性的影响。

Key Figure: arXiv 页面无稳定直链图片(HTML 不可用)。建议查看 PDF Fig.2/3:https://arxiv.org/pdf/2602.20715

Graph: Paper Node 2602.20715