Title: CapNav: Benchmarking Vision Language Models on Capability-conditioned Indoor Navigation
Authors: Xia Su, Ruiqi Chen, Benlin Liu, Jingwei Ma, Zonglin Di, Ranjay Krishna, Jon Froehlich
arXiv: https://arxiv.org/abs/2602.18424

Problem framing

现有 VLN/VLM 导航评测默认“机器人能力相同”,但真实机器人能力差异极大(能否上楼、跨越障碍、通过狭缝)会直接改变最优路径与指令可执行性。CapNav 把“能力约束”从隐变量变成显式条件,评测模型是否真的在做具身可执行决策。

Core method

论文提出 Capability-Conditioned Navigation 基准:

  • 在室内导航任务中显式注入 agent capability profile(如移动形态、可跨越高度、通过宽度)
  • 构造同一语义目标下、因能力不同而应选择不同路径的对比样本
  • 评估 VLM 在“语义理解 + 可执行约束一致性”上的联合表现,而非仅看到达率

Key equations and mechanisms

本工作核心是条件决策分布:

其中 表示能力条件。若忽略 ,模型会退化为“语言/视觉对齐正确但动作不可执行”的伪成功策略。评测重点是 capability-consistency 而非单纯语义匹配。

Experiment reading guide

优先看:

  1. 不同能力配置下同一任务的性能分化(是否真学到条件化)
  2. 错误类型分解:语义错、几何错、能力约束违背
  3. 强基座 VLM 是否仍在 capability-sensitive case 明显掉点

Limitations

当前仍是 benchmark 导向,尚未直接给出训练时如何最优注入 capability token/adapter 的统一方案;对真实机器人噪声与执行延迟的覆盖有限。

Future work

可把能力条件与世界模型联合,学习 的不确定性传播(例如能力边界随地形变化),并将其纳入规划风险函数。

Replication angle

你这边做人形/移动操作结合时,可直接借鉴“能力画像驱动任务筛选”:先按平台 capability profile 过滤不可执行样本,再做 VLA 微调,能减少无效 trial。

Figure

CapNav I/O and capability-conditioned setup

Graph: Paper Node 2602.18424