Title: HoMMI: Learning Whole-Body Mobile Manipulation from Human Demonstrations
Authors: Xiaomeng Xu, Jisang Park, Han Zhang, Eric Cousineau, Aditya Bhat, Jose Barreiros, Dian Wang, Shuran Song
arXiv: https://arxiv.org/abs/2603.03243
Figure: https://arxiv.org/html/2603.03243v1/2603.03243v1/fig/hardware_schematic.png
Problem framing
全身移动操作最缺的是高质量、低门槛、可扩展数据采集。传统机器人示教成本高,且人到机器人的本体差异(observation/action gap)会显著拉低策略迁移效果。HoMMI 试图把“机器人在场采集”升级为“robot-free 人类演示采集”。
Core method
HoMMI 在 UMI 风格接口上加入第一人称感知,采集人类全身移动操作演示,并设计学习框架对齐人机观测与动作空间差异。重点在于:既保留人类演示的任务语义完整性,又避免 egocentric 信号直接迁移导致的本体错配。
Key equations and mechanisms
核心机制可理解为跨本体对齐学习:
其中 约束 human/robot 表征在任务相关 latent 上对齐,缓解“人做得顺、机做不出”的表示鸿沟。
Experiment reading guide
建议重点看:
- robot-free 数据与 robot-collected 数据在同任务上的性能对比;
- 去除 egocentric 对齐机制后的退化幅度;
- 跨场景泛化与长时程任务稳定性。
Limitations
人类演示中存在动作冗余与策略多样性,可能增加学习目标不确定性;此外,跨机器人平台迁移仍受执行器与动力学差异限制。
Future work
可结合动作 tokenizer 或 latent action 建模压缩人类示教冗余,并用世界模型进行离线反事实增强以提高跨场景鲁棒性。
Replication angle
复现时先固定任务集,比较三种数据源:robot-only、human-only、hybrid;重点看样本效率、跨任务迁移和失败模式分布。
Graph: Paper Node 2603.03243