Title: GeoWorld: Geometric World Models
Authors: Zeyu Zhang, Danning Li, Ian Reid, Richard Hartley
arXiv: https://arxiv.org/abs/2602.23058
Problem framing
现有能量式世界模型在机器人规划里有两个系统性短板:一是潜空间默认欧氏几何,无法表达状态层级与树状分叉(尤其是长时序任务里“早期决策”对后续轨迹的指数放大);二是 rollout 随步数增长出现快速漂移,导致 test-time planning 的长程可靠性崩塌。GeoWorld 的核心问题意识是:如果任务本身具有层级结构与负曲率拓扑,潜空间也应显式几何化,而不是继续用“平坦”表示硬拟合。
Core method
方法由两层组成:
- Hyperbolic JEPA 表征层:把欧氏编码器输出映射到双曲流形,保留语义层级与分叉关系;
- Geometric RL 规划层:在双曲潜空间上进行能量优化与多步规划,减少长程 rollout 的几何失真。
直观上,GeoWorld 用“几何一致的表示 + 几何一致的优化”替代“几何错配的表示 + 欧氏优化”,把世界模型从像素预测/短视重建,推进到面向规划稳定性的结构学习。
Key equations and mechanisms
文中机制可抽象为三步:
- 欧氏到双曲的映射(示意)
其中 是保持局部邻域与层级关系的映射。
- 双曲空间中的能量式预测目标
把误差度量从欧氏距离换成双曲测地距离 。
- 几何强化学习规划(示意)
并在双曲潜空间滚动更新 ,以降低长程误差累积。
Experiment reading guide
建议按“验证几何是否真的带来规划收益”的顺序读:
- 先看长期 rollout 曲线:比较欧氏 latent 与双曲 latent 在预测步长增加时的退化速率。
- 再看任务级成功率:尤其关注多步视觉规划任务的 horizon 拉长后差距是否扩大。
- 最后看消融:Hyperbolic JEPA、Geometric RL 分别移除时性能损失,判断收益来源。
Limitations
- 双曲几何的收益可能依赖任务层级性;在几何结构弱的任务上未必稳定占优。
- 训练与优化实现复杂度高于标准欧氏世界模型。
- 若下游控制器或观测模型仍在欧氏假设下工作,跨空间接口可能引入额外误差。
Future work
- 把几何潜空间扩展到多模态(视觉+触觉+语言)统一世界模型。
- 研究可学习曲率或分段流形,让几何结构随任务自适应。
- 与可证安全 MPC/风险约束结合,形成“几何表示 + 安全规划”闭环。
Replication angle
复现实验可优先做三件事:
- 固定主干编码器,只替换欧氏/双曲潜空间比较 rollout 稳定性;
- 在同一控制预算下比较 planning horizon 增长时的性能斜率;
- 记录推理延迟与显存成本,评估几何建模对部署开销的真实影响。
Figure links:
- https://arxiv.org/html/2602.23058v1/x1.png
- https://arxiv.org/html/2602.23058v1/x2.png
- https://arxiv.org/html/2602.23058v1/figs/hyperbolicity.png
Graph: Paper Node 2602.23058