Title: IG-RFT: An Interaction-Guided RL Framework for VLA Models in Long-Horizon Robotic Manipulation
Authors: Zhian Su, Weijie Kong, Haonan Dong, Huixu Dong
arXiv: https://arxiv.org/abs/2602.20715
Problem framing
VLA 在长程真实操作中的主要瓶颈是分布偏移下的 credit assignment:纯 SFT 泛化差,直接 RL 又样本昂贵且不稳定。本文用“交互状态感知探索 + 混合密集奖励”提升实机可训练性。
Core method
IG-RFT 三阶段:SFT 预热、Offline RL、Human-in-the-Loop RL。核心算法 IG-AWR 会根据交互状态动态调节 advantage 权重与探索强度,避免在低信息阶段过度更新。
Key equations and mechanisms
- 交互引导 AWR 权重:
由交互状态 控制探索/保守程度。
- 混合奖励:
把子任务密集信号与轨迹级终局信号联合,缓解稀疏奖励。
- 分阶段优化:先离线稳定策略,再少量真人闭环校正。
Experiment reading guide
重点看四个长程真实任务的成功率提升(SFT 18.8% → IG-RFT 85.0%)与 ablation(去掉 IG-AWR/混合奖励后的降幅)。
Limitations
奖励设计仍有任务工程成分;HITL 阶段标注/干预成本未完全消除。
Future work
可以把交互状态建模为 POMDP belief,并做风险敏感优势加权。
Replication angle
建议先在单机械臂两阶段任务做小规模验证,观测 调度对稳定性的影响。
Key Figure: arXiv 页面无稳定直链图片(HTML 不可用)。建议查看 PDF Fig.2/3:https://arxiv.org/pdf/2602.20715
Graph: Paper Node 2602.20715