Title: Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation
Authors: Runpei Dong, Ziyan Li, Xialin He, Saurabh Gupta
arXiv: https://arxiv.org/abs/2602.16705

Problem framing

开放词汇人形 loco-manipulation 需同时满足视觉泛化和末端高精度控制,单纯 imitation 数据驱动难两者兼得。

Core method

HERO:residual-aware EE tracking + IK + 学习型前向模型 + goal adjustment/replanning 的混合式闭环。

Key equations and mechanisms

再通过 IK 与重规划转为关节控制,报告 EE 误差约 3.2x 下降。

Experiment reading guide

看模块化消融(IK/forward model/replanning)和真实场景跨地点泛化。

Limitations

系统工程复杂;复杂动态接触任务能力尚需更多证据。

Future work

与全身动力学约束、触觉反馈和任务级规划进一步融合。

Replication angle

先独立复现 EE tracking 子系统,再接开放词汇感知模块。

arXiv 页面无稳定直链图片。

Graph: Paper Node 2602.16705