Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation

Title: Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation
Authors: Runpei Dong, Ziyan Li, Xialin He, Saurabh Gupta
arXiv: https://arxiv.org/abs/2602.16705

Problem framing

开放词汇人形 loco-manipulation 需同时满足视觉泛化和末端高精度控制，单纯 imitation 数据驱动难两者兼得。

Core method

HERO：residual-aware EE tracking + IK + 学习型前向模型 + goal adjustment/replanning 的混合式闭环。

Key equations and mechanisms

x_{EE, t}^{*} = x_{EE, t}^{pl an} + Δ x_{EE, t}, Δ x_{EE, t} = g_{θ} (o_{t})

再通过 IK 与重规划转为关节控制，报告 EE 误差约 3.2x 下降。

Experiment reading guide

看模块化消融（IK/forward model/replanning）和真实场景跨地点泛化。

Limitations

系统工程复杂；复杂动态接触任务能力尚需更多证据。

Future work

与全身动力学约束、触觉反馈和任务级规划进一步融合。

Replication angle

先独立复现 EE tracking 子系统，再接开放词汇感知模块。

arXiv 页面无稳定直链图片。

Graph: Paper Node 2602.16705