Medium 2603.01549 Pri4R Learning World Dynamics for Vision Language Action Models with Privileged 4D Representation

Title: Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation
Authors: Jisoo Kim, Jungbin Cho, Sanghyeok Chu, Ananya Bal, Jinhyung Kim, Gunhee Lee, Sihaeng Lee, Seung Hwan Kim, et al.
arXiv: https://arxiv.org/abs/2603.01549

arXiv 页面无稳定直链图片。

Problem framing

VLA 常“看懂语义但不懂物理变化”，本质是缺少对时空动力学的内隐建模。Pri4R 试图用 privileged 4D 表征在训练期补上世界动态先验。

Core method

训练阶段引入 4D 监督信号（测试阶段不依赖），让策略在语义条件之外学习场景变化规律。属于“训练时加信息、部署时不加传感器”的务实路线。

Key equations and mechanisms

机制可视作附加动态一致性项：

L = L_{p} o l i cy + g amma * L_{4} D_{d} y nami cs

强调利用 privileged representation 约束时空一致性。

Experiment reading guide

重点看移除 privileged 信号后的退化幅度，以及跨场景泛化是否提升；若在遮挡/动态交互任务收益更大，说明动态先验确实被学到。

Limitations

privileged 4D 监督可能受数据构建成本限制；不同传感来源间的域差异也可能影响泛化。

Future work

可探索自监督 4D 代理信号替代昂贵标注，并与 world model rollout 结合形成闭环后训练。

Replication angle

复现时建议从小规模数据先验证“有无 privileged”差异，再扩到多任务基准，避免把收益误判为数据量效应。

Graph: Paper Node 2603.01549