Title: Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs
Authors: Yining Hong, Huang Huang, Manling Li, Li Fei-Fei, Jiajun Wu, Yejin Choi
arXiv: https://arxiv.org/abs/2602.21198

Problem framing

Embodied LLM 常见失败模式是“每次失败都像第一次失败”:能规划,但不会把错误转化为可复用经验。本文瞄准的是测试时能力(test-time scaling)在机器人闭环中的缺口——如何在不重训模型的前提下,实现“边执行边反思、跨回合积累”。

Core method

提出 Reflective Test-Time Planning(RTTP),把反思分成两层:

  1. reflection-in-action:当前步骤生成多候选动作并自评打分;
  2. reflection-on-action:回合结束后总结失败原因,写入可检索经验库,供后续任务调用。
    这相当于给 embodied agent 增加了一个在线“误差归因 + 经验蒸馏”模块。

Key equations and mechanisms

  • 候选动作选择

其中 来自即时反思评分, 为记忆状态。

  • 跨回合经验更新

将轨迹 压缩成可复用策略线索。

  • 检索增强规划:执行前从 中检索相似失败案例,作为规划约束或负例提示,降低重复犯错。

Experiment reading guide

先看多回合任务上的 success-rate 提升曲线(尤其是第2/3次尝试是否明显改善),再看 OOD 场景下失败类型分布是否从“策略性错误”转向“感知噪声类错误”。

Limitations

方法依赖反思文本质量;若自评器本身偏差大,可能把错误经验固化。另一个风险是记忆污染:低质量总结会在后续检索中放大噪声。

Future work

可引入置信度门控与反事实验证,只把“可验证有效”的反思写入长期记忆;也可与 VLA action-level credit assignment 结合,实现语言反思到低层控制修正的闭环。

Replication angle

可在 ALFRED/Manip benchmark 做 ablation:仅 in-action、仅 on-action、二者结合三组对比,验证长期收益是否来自“反思互补”而非单一提示工程。

Key Figure: https://arxiv.org/html/2602.21198/x1.png

Graph: Paper Node 2602.21198