GeoWorld Geometric World Models

Title: GeoWorld: Geometric World Models
Authors: Zeyu Zhang, Danning Li, Ian Reid, Richard Hartley
arXiv: https://arxiv.org/abs/2602.23058

Problem framing

现有能量式世界模型在机器人规划里有两个系统性短板：一是潜空间默认欧氏几何，无法表达状态层级与树状分叉（尤其是长时序任务里“早期决策”对后续轨迹的指数放大）；二是 rollout 随步数增长出现快速漂移，导致 test-time planning 的长程可靠性崩塌。GeoWorld 的核心问题意识是：如果任务本身具有层级结构与负曲率拓扑，潜空间也应显式几何化，而不是继续用“平坦”表示硬拟合。

Core method

方法由两层组成：

Hyperbolic JEPA 表征层：把欧氏编码器输出映射到双曲流形，保留语义层级与分叉关系；
Geometric RL 规划层：在双曲潜空间上进行能量优化与多步规划，减少长程 rollout 的几何失真。

直观上，GeoWorld 用“几何一致的表示 + 几何一致的优化”替代“几何错配的表示 + 欧氏优化”，把世界模型从像素预测/短视重建，推进到面向规划稳定性的结构学习。

Key equations and mechanisms

文中机制可抽象为三步：

欧氏到双曲的映射（示意）

z_{h} = ϕ (z_{e}), z_{h} \in H^{d}

其中 $ϕ$ 是保持局部邻域与层级关系的映射。

双曲空间中的能量式预测目标

L_{JEPA} = E [d_{H} (f_{θ} (z_{t}, a_{t : t + k}), z_{t + k})]

把误差度量从欧氏距离换成双曲测地距离 $d_{H} (\cdot, \cdot)$ 。

几何强化学习规划（示意）

a_{t : t + H}^{*} = ar g a_{t : t + H} min τ = t \sum t + H E_{ψ} (z_{τ}, a_{τ})

并在双曲潜空间滚动更新 $z_{τ + 1} = g_{ψ} (z_{τ}, a_{τ})$ ，以降低长程误差累积。

Experiment reading guide

建议按“验证几何是否真的带来规划收益”的顺序读：

先看长期 rollout 曲线：比较欧氏 latent 与双曲 latent 在预测步长增加时的退化速率。
再看任务级成功率：尤其关注多步视觉规划任务的 horizon 拉长后差距是否扩大。
最后看消融：Hyperbolic JEPA、Geometric RL 分别移除时性能损失，判断收益来源。

Limitations

双曲几何的收益可能依赖任务层级性；在几何结构弱的任务上未必稳定占优。
训练与优化实现复杂度高于标准欧氏世界模型。
若下游控制器或观测模型仍在欧氏假设下工作，跨空间接口可能引入额外误差。

Future work

把几何潜空间扩展到多模态（视觉+触觉+语言）统一世界模型。
研究可学习曲率或分段流形，让几何结构随任务自适应。
与可证安全 MPC/风险约束结合，形成“几何表示 + 安全规划”闭环。

Replication angle

复现实验可优先做三件事：

固定主干编码器，只替换欧氏/双曲潜空间比较 rollout 稳定性；
在同一控制预算下比较 planning horizon 增长时的性能斜率；
记录推理延迟与显存成本，评估几何建模对部署开销的真实影响。

Figure links:

Graph: Paper Node 2602.23058