Title: Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation
Authors: Jisoo Kim, Jungbin Cho, Sanghyeok Chu, Ananya Bal, Jinhyung Kim, Gunhee Lee, Sihaeng Lee, Seung Hwan Kim, et al.
arXiv: https://arxiv.org/abs/2603.01549

arXiv 页面无稳定直链图片。

Problem framing

VLA 常“看懂语义但不懂物理变化”,本质是缺少对时空动力学的内隐建模。Pri4R 试图用 privileged 4D 表征在训练期补上世界动态先验。

Core method

训练阶段引入 4D 监督信号(测试阶段不依赖),让策略在语义条件之外学习场景变化规律。属于“训练时加信息、部署时不加传感器”的务实路线。

Key equations and mechanisms

机制可视作附加动态一致性项:

强调利用 privileged representation 约束时空一致性。

Experiment reading guide

重点看移除 privileged 信号后的退化幅度,以及跨场景泛化是否提升;若在遮挡/动态交互任务收益更大,说明动态先验确实被学到。

Limitations

privileged 4D 监督可能受数据构建成本限制;不同传感来源间的域差异也可能影响泛化。

Future work

可探索自监督 4D 代理信号替代昂贵标注,并与 world model rollout 结合形成闭环后训练。

Replication angle

复现时建议从小规模数据先验证“有无 privileged”差异,再扩到多任务基准,避免把收益误判为数据量效应。

Graph: Paper Node 2603.01549