Title: Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs
Authors: Yining Hong, Huang Huang, Manling Li, Li Fei-Fei, Jiajun Wu, Yejin Choi
arXiv: https://arxiv.org/abs/2602.21198
Problem framing
Embodied LLM 常见失败模式是“每次失败都像第一次失败”:能规划,但不会把错误转化为可复用经验。本文瞄准的是测试时能力(test-time scaling)在机器人闭环中的缺口——如何在不重训模型的前提下,实现“边执行边反思、跨回合积累”。
Core method
提出 Reflective Test-Time Planning(RTTP),把反思分成两层:
- reflection-in-action:当前步骤生成多候选动作并自评打分;
- reflection-on-action:回合结束后总结失败原因,写入可检索经验库,供后续任务调用。
这相当于给 embodied agent 增加了一个在线“误差归因 + 经验蒸馏”模块。
Key equations and mechanisms
- 候选动作选择:
其中 来自即时反思评分, 为记忆状态。
- 跨回合经验更新:
将轨迹 压缩成可复用策略线索。
- 检索增强规划:执行前从 中检索相似失败案例,作为规划约束或负例提示,降低重复犯错。
Experiment reading guide
先看多回合任务上的 success-rate 提升曲线(尤其是第2/3次尝试是否明显改善),再看 OOD 场景下失败类型分布是否从“策略性错误”转向“感知噪声类错误”。
Limitations
方法依赖反思文本质量;若自评器本身偏差大,可能把错误经验固化。另一个风险是记忆污染:低质量总结会在后续检索中放大噪声。
Future work
可引入置信度门控与反事实验证,只把“可验证有效”的反思写入长期记忆;也可与 VLA action-level credit assignment 结合,实现语言反思到低层控制修正的闭环。
Replication angle
可在 ALFRED/Manip benchmark 做 ablation:仅 in-action、仅 on-action、二者结合三组对比,验证长期收益是否来自“反思互补”而非单一提示工程。
Key Figure: https://arxiv.org/html/2602.21198/x1.png
Graph: Paper Node 2602.21198