VIGOR Visual Goal-In-Context Inference for Unified Humanoid Fall Safety

Title: VIGOR: Visual Goal-In-Context Inference for Unified Humanoid Fall Safety
Authors: Osher Azulay, Zhengjie Xu, Andrew Scheffer, Stella X. Yu
arXiv: https://arxiv.org/abs/2602.16511

Problem framing

人形机器人跌倒安全通常被拆成多个孤立子任务（防跌倒、缓冲、起身），导致策略链路割裂、场景泛化弱。VIGOR 的目标是做统一 fall safety。

Core method

先训练 privileged teacher（含更多状态信息）学习“目标姿态+地形上下文”的潜表示，再蒸馏为仅依赖 egocentric depth + proprioception 的 student。关键不是单纯 imitation，而是学习 goal-in-context latent 对齐。

Key equations and mechanisms

蒸馏目标可写作：

\mathcal{L}=\|z_s(o_t)-z_t(s_t,\mathcal{T}_t)\|_2^2+eta\,\mathcal{L}_{\pi}(a_t^s,a_t^t),

其中 $z_{t}$ 把“下一目标姿态 + 局部地形”编码到统一潜空间，缓解 perception-action 分裂。

Experiment reading guide

建议先看仿真里的非平地 zero-shot 结果，再看 Unitree G1 实机无微调恢复序列，重点确认是否覆盖 fall 全阶段而非单段恢复。

Limitations

目前主要聚焦跌倒安全链路，尚未证明与高层任务规划长期耦合时的稳定性；对深度观测质量敏感。

Future work

可扩展到“跌倒风险预判+任务重规划”一体化，并结合触觉/力觉做更早期预警。

Replication angle

落地时可先在仿真复现 teacher-student latent 蒸馏，再将 student 迁移到真实人形，重点验证不同地形分布偏移下鲁棒性。

图链接（可直链渲染）：

https://arxiv.org/html/2602.16511v1/figures/teaser/stand_up/1.png

Graph: Paper Node 2602.16511