High 2603.03243 HoMMI Learning Whole-Body Mobile Manipulation from Human Demonstrations

Title: HoMMI: Learning Whole-Body Mobile Manipulation from Human Demonstrations
Authors: Xiaomeng Xu, Jisang Park, Han Zhang, Eric Cousineau, Aditya Bhat, Jose Barreiros, Dian Wang, Shuran Song
arXiv: https://arxiv.org/abs/2603.03243

Figure: https://arxiv.org/html/2603.03243v1/2603.03243v1/fig/hardware_schematic.png

Problem framing

全身移动操作最缺的是高质量、低门槛、可扩展数据采集。传统机器人示教成本高，且人到机器人的本体差异（observation/action gap）会显著拉低策略迁移效果。HoMMI 试图把“机器人在场采集”升级为“robot-free 人类演示采集”。

Core method

HoMMI 在 UMI 风格接口上加入第一人称感知，采集人类全身移动操作演示，并设计学习框架对齐人机观测与动作空间差异。重点在于：既保留人类演示的任务语义完整性，又避免 egocentric 信号直接迁移导致的本体错配。

Key equations and mechanisms

核心机制可理解为跨本体对齐学习：

θ min L_{b c} (π_{θ}) + α L_{a l i g n} (z_{h}, z_{r})

其中 $L_{a l i g n}$ 约束 human/robot 表征在任务相关 latent 上对齐，缓解“人做得顺、机做不出”的表示鸿沟。

Experiment reading guide

建议重点看：

robot-free 数据与 robot-collected 数据在同任务上的性能对比；
去除 egocentric 对齐机制后的退化幅度；
跨场景泛化与长时程任务稳定性。

Limitations

人类演示中存在动作冗余与策略多样性，可能增加学习目标不确定性；此外，跨机器人平台迁移仍受执行器与动力学差异限制。

Future work

可结合动作 tokenizer 或 latent action 建模压缩人类示教冗余，并用世界模型进行离线反事实增强以提高跨场景鲁棒性。

Replication angle

复现时先固定任务集，比较三种数据源：robot-only、human-only、hybrid；重点看样本效率、跨任务迁移和失败模式分布。

Graph: Paper Node 2603.03243