Title: Accelerating Robotic Reinforcement Learning with Agent Guidance
Authors: Haojun Chen, Zili Zou, Chengdong Ma, Yaoxiang Pu, Haotong Zhang, Yuanpei Chen, Yaodong Yang
arXiv: https://arxiv.org/abs/2602.11978

Problem framing

真实机器人 RL 的核心瓶颈是样本效率;HIL 虽有效但 1:1 人力监督不可扩展。本文想替换“人类纠偏器”为可执行多模态 agent,降低扩容成本。

Core method

提出 AGPS(Agent-guided Policy Search):把 agent 当作语义世界模型与先验提供者,借助工具调用生成指导信号,塑造探索方向,并与策略更新闭环耦合。

Key equations and mechanisms

可抽象为带引导项的策略优化:

其中 不是硬演示,而是语义/阶段性价值引导,目标是在不增加人工标注的前提下提高有效探索占比。

Experiment reading guide

优先看:

  • 与 HIL/纯RL 在 sample efficiency 的斜率对比;
  • 多任务操控中泛化到新目标/新场景的成功率;
  • agent guidance 失效场景(误导探索)及恢复机制。

Limitations

  • 对 agent 质量与工具可用性依赖较强;
  • 若语义先验偏差大,可能引入系统性 exploration bias。

Future work

可与不确定性估计结合,动态调节 ,在“高不确定阶段”减少 agent 影响,防止错误先验放大。

Replication angle

复现可先从仿真抓取任务入手,记录 guidance 触发频率、贡献回报、以及对策略熵的影响,判断其是否真正提升探索效率。

  • 关键图(source 提取):../../out/telegram-cards/2026-02-15/2602.11978-fig1.png

Graph: Paper Node 2602.11978