Title: Accelerating Robotic Reinforcement Learning with Agent Guidance
Authors: Haojun Chen, Zili Zou, Chengdong Ma, Yaoxiang Pu, Haotong Zhang, Yuanpei Chen, Yaodong Yang
arXiv: https://arxiv.org/abs/2602.11978
Problem framing
真实机器人 RL 的核心瓶颈是样本效率;HIL 虽有效但 1:1 人力监督不可扩展。本文想替换“人类纠偏器”为可执行多模态 agent,降低扩容成本。
Core method
提出 AGPS(Agent-guided Policy Search):把 agent 当作语义世界模型与先验提供者,借助工具调用生成指导信号,塑造探索方向,并与策略更新闭环耦合。
Key equations and mechanisms
可抽象为带引导项的策略优化:
其中 不是硬演示,而是语义/阶段性价值引导,目标是在不增加人工标注的前提下提高有效探索占比。
Experiment reading guide
优先看:
- 与 HIL/纯RL 在 sample efficiency 的斜率对比;
- 多任务操控中泛化到新目标/新场景的成功率;
- agent guidance 失效场景(误导探索)及恢复机制。
Limitations
- 对 agent 质量与工具可用性依赖较强;
- 若语义先验偏差大,可能引入系统性 exploration bias。
Future work
可与不确定性估计结合,动态调节 ,在“高不确定阶段”减少 agent 影响,防止错误先验放大。
Replication angle
复现可先从仿真抓取任务入手,记录 guidance 触发频率、贡献回报、以及对策略熵的影响,判断其是否真正提升探索效率。
Figure links
- 关键图(source 提取):
../../out/telegram-cards/2026-02-15/2602.11978-fig1.png
Graph: Paper Node 2602.11978