Title Iterative On-Policy Refinement of Hierarchical Diffusion Policies for Language-Conditioned Manipulation
Authors Clemence Grislain, Olivier Sigaud, Mohamed Chetouani
arXiv https://arxiv.org/abs/2603.05291
这篇工作的痛点非常准确:层级策略里 high-level planner 产出的 subgoal 往往超出 low-level controller 的可达域,导致“规划好看、执行失败”。HD-ExpIt 用 iterative on-policy refinement 把两者重新耦合到环境反馈里,而不是只靠静态离线数据对齐。
可以理解为优化一个分层一致性目标:
其中 衡量 subgoal 与低层可实现域的偏差。其价值在于把“可执行性”变成训练中持续被惩罚/修正的对象。
和 Wanpeng 偏好一致点:它强调机制层问题(层间失配)而非单纯网络加深;且 diffusion policy 在 manipulation 中已有工程可行基础,具备迁移潜力。
风险:on-policy 循环通常样本成本高,需看其是否通过自举数据筛选/重放策略把训练预算压到可接受范围。
建议动作
- 适合精读 + 机制复盘。
- 若要复现,先做“planner可达性偏差”的诊断基线,再接入其迭代修正流程。
Graph: Paper Node 2603.05291