Accelerating Robotic Reinforcement Learning with Agent Guidance

Title: Accelerating Robotic Reinforcement Learning with Agent Guidance
Authors: Haojun Chen, Zili Zou, Chengdong Ma, Yaoxiang Pu, Haotong Zhang, Yuanpei Chen, Yaodong Yang
arXiv: https://arxiv.org/abs/2602.11978

Problem framing

真实机器人 RL 的核心瓶颈是样本效率；HIL 虽有效但 1:1 人力监督不可扩展。本文想替换“人类纠偏器”为可执行多模态 agent，降低扩容成本。

Core method

提出 AGPS（Agent-guided Policy Search）：把 agent 当作语义世界模型与先验提供者，借助工具调用生成指导信号，塑造探索方向，并与策略更新闭环耦合。

Key equations and mechanisms

可抽象为带引导项的策略优化：

π max E_{a u \sim π} [t \sum r_{t} + λ g_{t}^{a g e n t}]

其中 $g_{t}^{a g e n t}$ 不是硬演示，而是语义/阶段性价值引导，目标是在不增加人工标注的前提下提高有效探索占比。

Experiment reading guide

优先看：

与 HIL/纯RL 在 sample efficiency 的斜率对比；
多任务操控中泛化到新目标/新场景的成功率；
agent guidance 失效场景（误导探索）及恢复机制。

Limitations

对 agent 质量与工具可用性依赖较强；
若语义先验偏差大，可能引入系统性 exploration bias。

Future work

可与不确定性估计结合，动态调节 $λ$ ，在“高不确定阶段”减少 agent 影响，防止错误先验放大。

Replication angle

复现可先从仿真抓取任务入手，记录 guidance 触发频率、贡献回报、以及对策略熵的影响，判断其是否真正提升探索效率。

Figure links

关键图（source 提取）：../../out/telegram-cards/2026-02-15/2602.11978-fig1.png

Graph: Paper Node 2602.11978