InCoM Intent-Driven Perception and Structured Coordination for Whole-Body Mobile Manipulation

Title: InCoM: Intent-Driven Perception and Structured Coordination for Whole-Body Mobile Manipulation
Authors: Jiahao Liu, Cui Wenbo, Haoran Li, Dongbin Zhao
arXiv: https://arxiv.org/abs/2602.23024

Problem framing

全身移动操作的痛点有两层耦合：

底盘-机械臂动作耦合导致优化难、局部最优多；
视角持续变化使感知注意力分配失稳。
InCoM 试图用“意图驱动感知 + 结构化协调控制”统一解决这两个瓶颈。

Core method

InCoM 将任务意图显式化为中间变量，驱动：

感知模块只提取与当前子目标相关的信息；
控制模块按结构化协调规则分配 base/arm 自由度。

可抽象为：

z_{t} = f_{in t e n t} (o_{t}, g), a_{t} = π_{coor d} (o_{t}, z_{t})

其中 $z_{t}$ 作为感知与控制的共享瓶颈变量，降低耦合复杂度。

Key equations and mechanisms

方法机制重点在“结构化信用分配”：

a_t = [a_t^{base}, a_t^{arm}],\quad (a_t^{base},a_t^{arm})=rg\max Q(o_t,z_t,a^{base},a^{arm})

通过约束化协调，避免 base 与 arm 在同一时刻争抢同类误差补偿任务，提升轨迹平滑与终端对位稳定性。

Experiment reading guide

建议优先看：

全身任务成功率与碰撞率；
动态视角变化下感知精度衰减曲线；
是否在长时程任务中减少“底盘到位但手臂失配”失败案例。

Limitations

意图中间变量定义若偏差，会把错误传播到感知与控制两侧；
对任务分解粒度较敏感；
在未知对象拓扑下可能需要更强先验。

Future work

增加在线意图重估计机制；
将触觉/力觉并入意图状态；
与世界模型结合，提前规划底盘-手臂协同节奏。

Replication angle

复现可先从两阶段 ablation 做起：固定感知 backbone，只替换协调策略；再固定协调策略，只替换意图表示。可明确增益来自“感知过滤”还是“控制解耦”。

图链接（可直链渲染）：

Graph: Paper Node 2602.23024