Title: Physics Informed Viscous Value Representations
Authors: Hrishikesh Viswanath, Juanwu Lu, S. Talha Bukhari, Damon Conover, Ziran Wang, Aniket Bera
arXiv: https://arxiv.org/abs/2602.23280
Problem framing
这篇工作针对 offline goal-conditioned RL 里最核心的 value estimation 不稳定问题:数据覆盖不足时,值函数在分布外状态会出现几何畸变,进而拖垮策略。既有 PDE 正则(如 Eikonal)在复杂高维任务里常出现不适定或局部梯度爆炸,导致训练信号不可控。
Core method
作者提出“黏性值函数”建模,把值学习写成带黏性项的 HJB 型约束:在传统 Bellman 残差之外加入二阶扩散平滑,使值函数在局部保持可微与曲率可控。直觉上,相当于让 value landscape 从“尖锐折线”变成“可导航流形”,从而提高 goal-conditioned 轨迹拼接的稳定性。
Key equations and mechanisms
核心机制可理解为最小化
其中二阶项 对应“黏性”约束,抑制高频振荡;一阶几何项保证值函数等高线与可达性结构一致。最终形成“可解释几何 + 数值稳定性”双重约束,而不只是经验性正则。
Experiment reading guide
优先看三类结果:
- 稀疏奖励长时任务上的成功率提升(看是否在低覆盖数据下仍稳);
- OOD 目标位姿上的 value calibration(看是否减少过乐观估计);
- 与 Eikonal/纯 Bellman 的收敛曲线对比(看训练阶段是否更平滑)。
Limitations
- 黏性系数对不同任务可能需重调,跨任务统一超参未必成立;
- 二阶项引入额外计算开销,实时性敏感场景需评估;
- 理论上偏向连续状态几何,离散接触切换场景的严谨性仍待补全。
Future work
可延伸到分层 world model + value regularization 联训,让黏性项不仅约束 value,还约束 latent dynamics 的局部 Lipschitz 性;也可探索自适应 ,在接触边界自动增强平滑。
Replication angle
复现时建议先在中等维度 manipulation benchmark 做三组消融:仅 Bellman、+Eikonal、+Viscous。重点记录 value Hessian 范数分布、成功率、以及 rollout 偏移误差,验证“数值更平滑 → 执行更稳”的因果链。
图链接:https://arxiv.org/html/2602.23280v1/x1.png
Graph: Paper Node 2602.23280