Physics Informed Viscous Value Representations

Title: Physics Informed Viscous Value Representations
Authors: Hrishikesh Viswanath, Juanwu Lu, S. Talha Bukhari, Damon Conover, Ziran Wang, Aniket Bera
arXiv: https://arxiv.org/abs/2602.23280

Problem framing

这篇工作针对 offline goal-conditioned RL 里最核心的 value estimation 不稳定问题：数据覆盖不足时，值函数在分布外状态会出现几何畸变，进而拖垮策略。既有 PDE 正则（如 Eikonal）在复杂高维任务里常出现不适定或局部梯度爆炸，导致训练信号不可控。

Core method

作者提出“黏性值函数”建模，把值学习写成带黏性项的 HJB 型约束：在传统 Bellman 残差之外加入二阶扩散平滑，使值函数在局部保持可微与曲率可控。直觉上，相当于让 value landscape 从“尖锐折线”变成“可导航流形”，从而提高 goal-conditioned 轨迹拼接的稳定性。

Key equations and mechanisms

核心机制可理解为最小化

L = Bellman consistency ∥ Q_{θ} - T Q_{θ} ∥^{2} + λ_{1} geometry prior ∥\nabla Q_{θ} ∥ - 1 + λ_{2} viscous smoothing ∥Δ Q_{θ} ∥ .

其中二阶项 $Δ Q$ 对应“黏性”约束，抑制高频振荡；一阶几何项保证值函数等高线与可达性结构一致。最终形成“可解释几何 + 数值稳定性”双重约束，而不只是经验性正则。

Experiment reading guide

优先看三类结果：

稀疏奖励长时任务上的成功率提升（看是否在低覆盖数据下仍稳）；
OOD 目标位姿上的 value calibration（看是否减少过乐观估计）；
与 Eikonal/纯 Bellman 的收敛曲线对比（看训练阶段是否更平滑）。

Limitations

黏性系数对不同任务可能需重调，跨任务统一超参未必成立；
二阶项引入额外计算开销，实时性敏感场景需评估；
理论上偏向连续状态几何，离散接触切换场景的严谨性仍待补全。

Future work

可延伸到分层 world model + value regularization 联训，让黏性项不仅约束 value，还约束 latent dynamics 的局部 Lipschitz 性；也可探索自适应 $λ_{2} (s)$ ，在接触边界自动增强平滑。

Replication angle

复现时建议先在中等维度 manipulation benchmark 做三组消融：仅 Bellman、+Eikonal、+Viscous。重点记录 value Hessian 范数分布、成功率、以及 rollout 偏移误差，验证“数值更平滑 → 执行更稳”的因果链。
图链接：https://arxiv.org/html/2602.23280v1/x1.png

Graph: Paper Node 2602.23280