Learning from Trials and Errors Reflective Test-Time Planning for Embodied LLMs

Title: Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs
Authors: Yining Hong, Huang Huang, Manling Li, Li Fei-Fei, Jiajun Wu, Yejin Choi
arXiv: https://arxiv.org/abs/2602.21198

Problem framing

Embodied LLM 常见失败模式是“每次失败都像第一次失败”：能规划，但不会把错误转化为可复用经验。本文瞄准的是测试时能力（test-time scaling）在机器人闭环中的缺口——如何在不重训模型的前提下，实现“边执行边反思、跨回合积累”。

Core method

提出 Reflective Test-Time Planning（RTTP），把反思分成两层：

reflection-in-action：当前步骤生成多候选动作并自评打分；
reflection-on-action：回合结束后总结失败原因，写入可检索经验库，供后续任务调用。
这相当于给 embodied agent 增加了一个在线“误差归因 + 经验蒸馏”模块。

Key equations and mechanisms

候选动作选择：

a_{t}^{*} = ar g a \in A_{t} max S_{inst} (a ∣ o_{\leq t}, g, m_{t})

其中 $S_{inst}$ 来自即时反思评分， $m_{t}$ 为记忆状态。

跨回合经验更新：

M_{k + 1} = U (M_{k}, summarize (τ_{k}, fail/success))

将轨迹 $τ_{k}$ 压缩成可复用策略线索。

检索增强规划：执行前从 $M$ 中检索相似失败案例，作为规划约束或负例提示，降低重复犯错。

Experiment reading guide

先看多回合任务上的 success-rate 提升曲线（尤其是第2/3次尝试是否明显改善），再看 OOD 场景下失败类型分布是否从“策略性错误”转向“感知噪声类错误”。

Limitations

方法依赖反思文本质量；若自评器本身偏差大，可能把错误经验固化。另一个风险是记忆污染：低质量总结会在后续检索中放大噪声。

Future work

可引入置信度门控与反事实验证，只把“可验证有效”的反思写入长期记忆；也可与 VLA action-level credit assignment 结合，实现语言反思到低层控制修正的闭环。

Replication angle

可在 ALFRED/Manip benchmark 做 ablation：仅 in-action、仅 on-action、二者结合三组对比，验证长期收益是否来自“反思互补”而非单一提示工程。

Key Figure: https://arxiv.org/html/2602.21198/x1.png

Graph: Paper Node 2602.21198