Title: Zero-shot Interactive Perception
Authors: Venkatesh Sripada, Frank Guerin, Amir Ghalamzan
arXiv: https://arxiv.org/abs/2602.18374

Problem framing

部分可观测场景中,机器人若只“看不动”会陷入信息不足。本文提出零样本交互感知:通过推动/抓取等动作主动揭示隐信息,再更新任务决策。

Core method

多策略操作(push + grasp)结合带记忆的 VLM 推理,形成“交互-观察-重规划”闭环,目标是在无专门任务微调下提升复杂遮挡场景成功率。

Key equations and mechanisms

可抽象为 POMDP 下的信息增益驱动动作选择:

a_t^* = rg\max_a \; \mathbb Eig[R(a) + eta \cdot \mathcal I(s; o'\mid a)ig]

其中 表示交互后观测带来的状态不确定性下降。

Experiment reading guide

重点看遮挡物体检索、抓取前探测、以及与被动感知基线对比的成功率/交互次数折中。

Limitations

交互动作会引入额外时延与潜在风险;在高代价接触任务中需安全约束。

Future work

可与触觉/力觉联合,做多模态主动感知;也可加入风险敏感规划。

Replication angle

适合在桌面 clutter 场景做快速复现,验证“少量交互是否显著提升任务可解性”。

Graph: Paper Node 2602.18374