Title: Planning from Observation and Interaction
Authors: Tyler Han, Siyang Shen, Rohan Baijal, Harine Ravichandiran, Bat Nemekhbold, Kevin Huang, Sanghun Jung, Byron Boots
arXiv: https://arxiv.org/abs/2602.24121
Problem framing
针对真实机器人“只有观测演示、没有演示动作和手工奖励”的稀监督设定,核心是从弱信号恢复可规划任务机制。
Core method
采用 planning-based IRL:从观测学习动力学,再通过少量交互补齐可辨识性,在 learned world model 中反演奖励并规划策略。
Key equations and mechanisms
联合目标可写为:
再在模型内求解:
Experiment reading guide
重点看无动作标签条件下相对 BC/离线 IRL 的增益、交互预算曲线和真实扰动鲁棒性。
Limitations
性能依赖 world model 精度;交互采样策略不佳时,样本成本仍可能偏高。
Future work
可结合 risk-sensitive 规划与主动交互采样,优先消除奖励歧义最大的轨迹片段。
Replication angle
建议从简化任务做 ablation:仅观测 → 观测+交互 → 全流程,验证模块边际贡献。
Figure: arXiv 页面无稳定直链图片(建议看 PDF Fig.2/Fig.3)
Graph: Paper Node 2602.24121