Title: VIGOR: Visual Goal-In-Context Inference for Unified Humanoid Fall Safety
Authors: Osher Azulay, Zhengjie Xu, Andrew Scheffer, Stella X. Yu
arXiv: https://arxiv.org/abs/2602.16511

Problem framing

人形机器人跌倒安全通常被拆成多个孤立子任务(防跌倒、缓冲、起身),导致策略链路割裂、场景泛化弱。VIGOR 的目标是做统一 fall safety。

Core method

先训练 privileged teacher(含更多状态信息)学习“目标姿态+地形上下文”的潜表示,再蒸馏为仅依赖 egocentric depth + proprioception 的 student。关键不是单纯 imitation,而是学习 goal-in-context latent 对齐。

Key equations and mechanisms

蒸馏目标可写作:

\mathcal{L}=\|z_s(o_t)-z_t(s_t,\mathcal{T}_t)\|_2^2+eta\,\mathcal{L}_{\pi}(a_t^s,a_t^t),

其中 把“下一目标姿态 + 局部地形”编码到统一潜空间,缓解 perception-action 分裂。

Experiment reading guide

建议先看仿真里的非平地 zero-shot 结果,再看 Unitree G1 实机无微调恢复序列,重点确认是否覆盖 fall 全阶段而非单段恢复。

Limitations

目前主要聚焦跌倒安全链路,尚未证明与高层任务规划长期耦合时的稳定性;对深度观测质量敏感。

Future work

可扩展到“跌倒风险预判+任务重规划”一体化,并结合触觉/力觉做更早期预警。

Replication angle

落地时可先在仿真复现 teacher-student latent 蒸馏,再将 student 迁移到真实人形,重点验证不同地形分布偏移下鲁棒性。

图链接(可直链渲染):

Graph: Paper Node 2602.16511