Title: APEX Learning Adaptive High-Platform Traversal for Humanoid Robots
Authors: Yikai Wang, Tingxuan Leng, Changyi Lin, Shiqi Liu, Simon Shir, Bingqing Chen, Francis Jonathan, Ding Zhao
arXiv: https://arxiv.org/abs/2602.11143
APEX聚焦一个硬任务:超过腿长的高台跨越。传统人形策略在这类场景容易滑向“看似通过、实则高冲击高风险”的跳跃解。作者采用多技能分解(上台、下台、台面行走/爬行、起卧转换)再统一蒸馏,并引入 ratchet 式进度奖励,强调“持续向前且可恢复”的安全推进。
进度奖励可抽象为 ,其中 ;统一策略可写成
这套机制把“会不会过”与“怎么安全地过”绑定在同一优化目标里。实验建议重点看高度归一化指标(相对腿长)、六类技能切换平滑性与硬件冲击统计。主要局限是对地图质量和感知修复依赖较强,未见几何分布下可能退化。
Figures
