Zero-shot Interactive Perception

Title: Zero-shot Interactive Perception
Authors: Venkatesh Sripada, Frank Guerin, Amir Ghalamzan
arXiv: https://arxiv.org/abs/2602.18374

部分可观测场景中，机器人若只“看不动”会陷入信息不足。本文提出零样本交互感知：通过推动/抓取等动作主动揭示隐信息，再更新任务决策。

多策略操作（push + grasp）结合带记忆的 VLM 推理，形成“交互-观察-重规划”闭环，目标是在无专门任务微调下提升复杂遮挡场景成功率。

可抽象为 POMDP 下的信息增益驱动动作选择：

a_t^* = rg\max_a \; \mathbb Eig[R(a) + eta \cdot \mathcal I(s; o'\mid a)ig]

其中 $I$ 表示交互后观测带来的状态不确定性下降。

重点看遮挡物体检索、抓取前探测、以及与被动感知基线对比的成功率/交互次数折中。

交互动作会引入额外时延与潜在风险；在高代价接触任务中需安全约束。

可与触觉/力觉联合，做多模态主动感知；也可加入风险敏感规划。

适合在桌面 clutter 场景做快速复现，验证“少量交互是否显著提升任务可解性”。

Graph: Paper Node 2602.18374