Title: ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation
Authors: Xialin He, Sirui Xu, Xinyao Li, Runpei Dong, Liuyu Bian, Yu-Xiong Wang, Liang-Yan Gui
arXiv: https://arxiv.org/abs/2603.03279

Figure: ./out/telegram-cards/2026-03-04/2603.03279.png(由 arXiv source 图转出)

Problem framing

人形全身 loco-manipulation 的主痛点是:现有方法多依赖预定义动作轨迹跟踪,难以从视觉和任务语义直接生成动作;同时,高质量可扩展数据稀缺,导致技能覆盖受限。ULTRA 的问题定义非常直指部署:如何把“多模态输入→可执行全身策略”做成统一且可扩展的控制框架。

Core method

ULTRA 采用统一多模态控制范式,把视觉、语言/任务条件与全身动作生成放在同一策略学习管线中,目标不是重放 reference motion,而是让策略从感知与高层任务说明中直接合成行为。其关键价值在于把“模仿某段动作”升级为“理解任务并生成动作”。

Key equations and mechanisms

论文强调的是统一控制与可扩展训练范式,建议重点看其多模态融合与策略目标的耦合设计:

其中 为视觉/状态观测, 为任务条件, 表示历史上下文。核心是让策略在统一 latent 中完成感知-决策-控制闭环,而不是分裂式模块堆叠。

Experiment reading guide

先看三块:

  1. 全身移动+操作的联合任务成功率;
  2. 技能数量扩展后的性能退化曲线(是否可扩展);
  3. 与 reference-tracking 基线比较(泛化与鲁棒性)。

Limitations

统一策略通常对数据分布与训练稳定性更敏感;若任务覆盖不足,可能出现“统一但不精”的问题。对高动态接触任务的安全边界也需更多实机验证。

Future work

可进一步接入 world model 进行 imagined rollouts,降低真机数据成本;也可加入风险敏感控制项,提升人形复杂环境部署安全性。

Replication angle

复现建议从“少技能集→多技能集”渐进扩展,重点记录技能扩展时的灾难性遗忘、策略抖动与恢复行为稳定性。

Graph: Paper Node 2603.03279