Planning from Observation and Interaction

Title: Planning from Observation and Interaction
Authors: Tyler Han, Siyang Shen, Rohan Baijal, Harine Ravichandiran, Bat Nemekhbold, Kevin Huang, Sanghun Jung, Byron Boots
arXiv: https://arxiv.org/abs/2602.24121

Problem framing

针对真实机器人“只有观测演示、没有演示动作和手工奖励”的稀监督设定，核心是从弱信号恢复可规划任务机制。

Core method

采用 planning-based IRL：从观测学习动力学，再通过少量交互补齐可辨识性，在 learned world model 中反演奖励并规划策略。

Key equations and mechanisms

联合目标可写为：

θ, r_{ϕ} min L_{d y n} (θ) + λ L_{I R L} (r_{ϕ}; τ_{o b s}, τ_{in t}) .

再在模型内求解：

π^{*} = ar g π max E_{\overset{p}{^}_{θ}, π} [t \sum r_{ϕ} (s_{t}, a_{t})] .

Experiment reading guide

重点看无动作标签条件下相对 BC/离线 IRL 的增益、交互预算曲线和真实扰动鲁棒性。

Limitations

性能依赖 world model 精度；交互采样策略不佳时，样本成本仍可能偏高。

Future work

可结合 risk-sensitive 规划与主动交互采样，优先消除奖励歧义最大的轨迹片段。

Replication angle

建议从简化任务做 ablation：仅观测 → 观测+交互 → 全流程，验证模块边际贡献。

Figure: arXiv 页面无稳定直链图片（建议看 PDF Fig.2/Fig.3）

Graph: Paper Node 2602.24121