HD-ExpIt - Iterative On-Policy Refinement of Hierarchical Diffusion Policies for Language-Conditioned Manipulation

Title Iterative On-Policy Refinement of Hierarchical Diffusion Policies for Language-Conditioned Manipulation
Authors Clemence Grislain, Olivier Sigaud, Mohamed Chetouani
arXiv https://arxiv.org/abs/2603.05291

这篇工作的痛点非常准确：层级策略里 high-level planner 产出的 subgoal 往往超出 low-level controller 的可达域，导致“规划好看、执行失败”。HD-ExpIt 用 iterative on-policy refinement 把两者重新耦合到环境反馈里，而不是只靠静态离线数据对齐。

可以理解为优化一个分层一致性目标：

π_{H}, π_{L} max E [t \sum r_{t}] - λ D (g_{t}, R (π_{L}, s_{t}))

其中 $D$ 衡量 subgoal 与低层可实现域的偏差。其价值在于把“可执行性”变成训练中持续被惩罚/修正的对象。

和 Wanpeng 偏好一致点：它强调机制层问题（层间失配）而非单纯网络加深；且 diffusion policy 在 manipulation 中已有工程可行基础，具备迁移潜力。

风险：on-policy 循环通常样本成本高，需看其是否通过自举数据筛选/重放策略把训练预算压到可接受范围。

建议动作

适合精读 + 机制复盘。
若要复现，先做“planner可达性偏差”的诊断基线，再接入其迭代修正流程。

Graph: Paper Node 2603.05291