Title: InCoM: Intent-Driven Perception and Structured Coordination for Whole-Body Mobile Manipulation
Authors: Jiahao Liu, Cui Wenbo, Haoran Li, Dongbin Zhao
arXiv: https://arxiv.org/abs/2602.23024
Problem framing
全身移动操作的痛点有两层耦合:
- 底盘-机械臂动作耦合导致优化难、局部最优多;
- 视角持续变化使感知注意力分配失稳。
InCoM 试图用“意图驱动感知 + 结构化协调控制”统一解决这两个瓶颈。
Core method
InCoM 将任务意图显式化为中间变量,驱动:
- 感知模块只提取与当前子目标相关的信息;
- 控制模块按结构化协调规则分配 base/arm 自由度。
可抽象为:
其中 作为感知与控制的共享瓶颈变量,降低耦合复杂度。
Key equations and mechanisms
方法机制重点在“结构化信用分配”:
a_t = [a_t^{base}, a_t^{arm}],\quad (a_t^{base},a_t^{arm})=rg\max Q(o_t,z_t,a^{base},a^{arm})通过约束化协调,避免 base 与 arm 在同一时刻争抢同类误差补偿任务,提升轨迹平滑与终端对位稳定性。
Experiment reading guide
建议优先看:
- 全身任务成功率与碰撞率;
- 动态视角变化下感知精度衰减曲线;
- 是否在长时程任务中减少“底盘到位但手臂失配”失败案例。
Limitations
- 意图中间变量定义若偏差,会把错误传播到感知与控制两侧;
- 对任务分解粒度较敏感;
- 在未知对象拓扑下可能需要更强先验。
Future work
- 增加在线意图重估计机制;
- 将触觉/力觉并入意图状态;
- 与世界模型结合,提前规划底盘-手臂协同节奏。
Replication angle
复现可先从两阶段 ablation 做起:固定感知 backbone,只替换协调策略;再固定协调策略,只替换意图表示。可明确增益来自“感知过滤”还是“控制解耦”。
图链接(可直链渲染):
Graph: Paper Node 2602.23024