IG-RFT An Interaction-Guided RL Framework for VLA Models in Long-Horizon Robotic Manipulation

Title: IG-RFT: An Interaction-Guided RL Framework for VLA Models in Long-Horizon Robotic Manipulation
Authors: Zhian Su, Weijie Kong, Haonan Dong, Huixu Dong
arXiv: https://arxiv.org/abs/2602.20715

Problem framing

VLA 在长程真实操作中的主要瓶颈是分布偏移下的 credit assignment：纯 SFT 泛化差，直接 RL 又样本昂贵且不稳定。本文用“交互状态感知探索 + 混合密集奖励”提升实机可训练性。

Core method

IG-RFT 三阶段：SFT 预热、Offline RL、Human-in-the-Loop RL。核心算法 IG-AWR 会根据交互状态动态调节 advantage 权重与探索强度，避免在低信息阶段过度更新。

Key equations and mechanisms

交互引导 AWR 权重：

L_{π} = - E [exp (\frac{α ( z _{t} ) A _{t}}{β}) lo g π_{θ} (a_{t} ∣ s_{t})]

$α (z_{t})$ 由交互状态 $z_{t}$ 控制探索/保守程度。

混合奖励：

r_{t} = λ r_{t}^{s u b t a s k} + (1 - λ) r^{t r aj}

把子任务密集信号与轨迹级终局信号联合，缓解稀疏奖励。

分阶段优化：先离线稳定策略，再少量真人闭环校正。

Experiment reading guide

重点看四个长程真实任务的成功率提升（SFT 18.8% → IG-RFT 85.0%）与 ablation（去掉 IG-AWR/混合奖励后的降幅）。

Limitations

奖励设计仍有任务工程成分；HITL 阶段标注/干预成本未完全消除。

Future work

可以把交互状态建模为 POMDP belief，并做风险敏感优势加权。

Replication angle

建议先在单机械臂两阶段任务做小规模验证，观测 $α (z_{t})$ 调度对稳定性的影响。

Key Figure: arXiv 页面无稳定直链图片（HTML 不可用）。建议查看 PDF Fig.2/3：https://arxiv.org/pdf/2602.20715

Graph: Paper Node 2602.20715