Title: VIGOR: Visual Goal-In-Context Inference for Unified Humanoid Fall Safety
Authors: Osher Azulay, Zhengjie Xu, Andrew Scheffer, Stella X. Yu
arXiv: https://arxiv.org/abs/2602.16511
Problem framing
人形机器人跌倒安全通常被拆成多个孤立子任务(防跌倒、缓冲、起身),导致策略链路割裂、场景泛化弱。VIGOR 的目标是做统一 fall safety。
Core method
先训练 privileged teacher(含更多状态信息)学习“目标姿态+地形上下文”的潜表示,再蒸馏为仅依赖 egocentric depth + proprioception 的 student。关键不是单纯 imitation,而是学习 goal-in-context latent 对齐。
Key equations and mechanisms
蒸馏目标可写作:
\mathcal{L}=\|z_s(o_t)-z_t(s_t,\mathcal{T}_t)\|_2^2+eta\,\mathcal{L}_{\pi}(a_t^s,a_t^t),其中 把“下一目标姿态 + 局部地形”编码到统一潜空间,缓解 perception-action 分裂。
Experiment reading guide
建议先看仿真里的非平地 zero-shot 结果,再看 Unitree G1 实机无微调恢复序列,重点确认是否覆盖 fall 全阶段而非单段恢复。
Limitations
目前主要聚焦跌倒安全链路,尚未证明与高层任务规划长期耦合时的稳定性;对深度观测质量敏感。
Future work
可扩展到“跌倒风险预判+任务重规划”一体化,并结合触觉/力觉做更早期预警。
Replication angle
落地时可先在仿真复现 teacher-student latent 蒸馏,再将 student 迁移到真实人形,重点验证不同地形分布偏移下鲁棒性。
图链接(可直链渲染):
Graph: Paper Node 2602.16511