Title: InCoM: Intent-Driven Perception and Structured Coordination for Whole-Body Mobile Manipulation
Authors: Jiahao Liu, Cui Wenbo, Haoran Li, Dongbin Zhao
arXiv: https://arxiv.org/abs/2602.23024

Problem framing

全身移动操作的痛点有两层耦合:

  1. 底盘-机械臂动作耦合导致优化难、局部最优多;
  2. 视角持续变化使感知注意力分配失稳。
    InCoM 试图用“意图驱动感知 + 结构化协调控制”统一解决这两个瓶颈。

Core method

InCoM 将任务意图显式化为中间变量,驱动:

  • 感知模块只提取与当前子目标相关的信息;
  • 控制模块按结构化协调规则分配 base/arm 自由度。

可抽象为:

其中 作为感知与控制的共享瓶颈变量,降低耦合复杂度。

Key equations and mechanisms

方法机制重点在“结构化信用分配”:

a_t = [a_t^{base}, a_t^{arm}],\quad (a_t^{base},a_t^{arm})=rg\max Q(o_t,z_t,a^{base},a^{arm})

通过约束化协调,避免 base 与 arm 在同一时刻争抢同类误差补偿任务,提升轨迹平滑与终端对位稳定性。

Experiment reading guide

建议优先看:

  1. 全身任务成功率与碰撞率;
  2. 动态视角变化下感知精度衰减曲线;
  3. 是否在长时程任务中减少“底盘到位但手臂失配”失败案例。

Limitations

  • 意图中间变量定义若偏差,会把错误传播到感知与控制两侧;
  • 对任务分解粒度较敏感;
  • 在未知对象拓扑下可能需要更强先验。

Future work

  • 增加在线意图重估计机制;
  • 将触觉/力觉并入意图状态;
  • 与世界模型结合,提前规划底盘-手臂协同节奏。

Replication angle

复现可先从两阶段 ablation 做起:固定感知 backbone,只替换协调策略;再固定协调策略,只替换意图表示。可明确增益来自“感知过滤”还是“控制解耦”。

图链接(可直链渲染):

Graph: Paper Node 2602.23024