Title: Zero-shot Interactive Perception
Authors: Venkatesh Sripada, Frank Guerin, Amir Ghalamzan
arXiv: https://arxiv.org/abs/2602.18374
Problem framing
部分可观测场景中,机器人若只“看不动”会陷入信息不足。本文提出零样本交互感知:通过推动/抓取等动作主动揭示隐信息,再更新任务决策。
Core method
多策略操作(push + grasp)结合带记忆的 VLM 推理,形成“交互-观察-重规划”闭环,目标是在无专门任务微调下提升复杂遮挡场景成功率。
Key equations and mechanisms
可抽象为 POMDP 下的信息增益驱动动作选择:
a_t^* = rg\max_a \; \mathbb Eig[R(a) + eta \cdot \mathcal I(s; o'\mid a)ig]其中 表示交互后观测带来的状态不确定性下降。
Experiment reading guide
重点看遮挡物体检索、抓取前探测、以及与被动感知基线对比的成功率/交互次数折中。
Limitations
交互动作会引入额外时延与潜在风险;在高代价接触任务中需安全约束。
Future work
可与触觉/力觉联合,做多模态主动感知;也可加入风险敏感规划。
Replication angle
适合在桌面 clutter 场景做快速复现,验证“少量交互是否显著提升任务可解性”。
Graph: Paper Node 2602.18374