Title: Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation
Authors: Jisoo Kim, Jungbin Cho, Sanghyeok Chu, Ananya Bal, Jinhyung Kim, Gunhee Lee, Sihaeng Lee, Seung Hwan Kim, et al.
arXiv: https://arxiv.org/abs/2603.01549
arXiv 页面无稳定直链图片。
Problem framing
VLA 常“看懂语义但不懂物理变化”,本质是缺少对时空动力学的内隐建模。Pri4R 试图用 privileged 4D 表征在训练期补上世界动态先验。
Core method
训练阶段引入 4D 监督信号(测试阶段不依赖),让策略在语义条件之外学习场景变化规律。属于“训练时加信息、部署时不加传感器”的务实路线。
Key equations and mechanisms
机制可视作附加动态一致性项:
强调利用 privileged representation 约束时空一致性。
Experiment reading guide
重点看移除 privileged 信号后的退化幅度,以及跨场景泛化是否提升;若在遮挡/动态交互任务收益更大,说明动态先验确实被学到。
Limitations
privileged 4D 监督可能受数据构建成本限制;不同传感来源间的域差异也可能影响泛化。
Future work
可探索自监督 4D 代理信号替代昂贵标注,并与 world model rollout 结合形成闭环后训练。
Replication angle
复现时建议从小规模数据先验证“有无 privileged”差异,再扩到多任务基准,避免把收益误判为数据量效应。
Graph: Paper Node 2603.01549