Title: GeoWorld: Geometric World Models
Authors: Zeyu Zhang, Danning Li, Ian Reid, Richard Hartley
arXiv: https://arxiv.org/abs/2602.23058

Problem framing

现有能量式世界模型在机器人规划里有两个系统性短板:一是潜空间默认欧氏几何,无法表达状态层级与树状分叉(尤其是长时序任务里“早期决策”对后续轨迹的指数放大);二是 rollout 随步数增长出现快速漂移,导致 test-time planning 的长程可靠性崩塌。GeoWorld 的核心问题意识是:如果任务本身具有层级结构与负曲率拓扑,潜空间也应显式几何化,而不是继续用“平坦”表示硬拟合。

Core method

方法由两层组成:

  1. Hyperbolic JEPA 表征层:把欧氏编码器输出映射到双曲流形,保留语义层级与分叉关系;
  2. Geometric RL 规划层:在双曲潜空间上进行能量优化与多步规划,减少长程 rollout 的几何失真。

直观上,GeoWorld 用“几何一致的表示 + 几何一致的优化”替代“几何错配的表示 + 欧氏优化”,把世界模型从像素预测/短视重建,推进到面向规划稳定性的结构学习。

Key equations and mechanisms

文中机制可抽象为三步:

  1. 欧氏到双曲的映射(示意)

其中 是保持局部邻域与层级关系的映射。

  1. 双曲空间中的能量式预测目标

把误差度量从欧氏距离换成双曲测地距离

  1. 几何强化学习规划(示意)

并在双曲潜空间滚动更新 ,以降低长程误差累积。

Experiment reading guide

建议按“验证几何是否真的带来规划收益”的顺序读:

  • 先看长期 rollout 曲线:比较欧氏 latent 与双曲 latent 在预测步长增加时的退化速率。
  • 再看任务级成功率:尤其关注多步视觉规划任务的 horizon 拉长后差距是否扩大。
  • 最后看消融:Hyperbolic JEPA、Geometric RL 分别移除时性能损失,判断收益来源。

Limitations

  • 双曲几何的收益可能依赖任务层级性;在几何结构弱的任务上未必稳定占优。
  • 训练与优化实现复杂度高于标准欧氏世界模型。
  • 若下游控制器或观测模型仍在欧氏假设下工作,跨空间接口可能引入额外误差。

Future work

  • 把几何潜空间扩展到多模态(视觉+触觉+语言)统一世界模型。
  • 研究可学习曲率或分段流形,让几何结构随任务自适应。
  • 与可证安全 MPC/风险约束结合,形成“几何表示 + 安全规划”闭环。

Replication angle

复现实验可优先做三件事:

  1. 固定主干编码器,只替换欧氏/双曲潜空间比较 rollout 稳定性;
  2. 在同一控制预算下比较 planning horizon 增长时的性能斜率;
  3. 记录推理延迟与显存成本,评估几何建模对部署开销的真实影响。

Figure links:

Graph: Paper Node 2602.23058