Title: DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI
Authors: En Yu, Haoran Lv, Jianjian Sun, et al.
arXiv: https://arxiv.org/abs/2602.14974
Problem framing
当前主流 VLA 往往走“互联网预训练→具身微调”,导致语义强、物理弱:高层理解与低层动作耦合不稳,跨导航与操作任务容易碎片化。DM0 直接把“物理先验”放进预训练起点,目标是做真正 embodied-native 的统一策略底座。
Core method
DM0 采用三阶段训练:Pretraining / Mid-Training / Post-Training,并围绕两条主线组织:
- 统一多源数据(web + driving + embodied)共同预训练 VLM;
- 在 VLM 上接 Flow Matching action expert,并通过混合梯度策略避免动作学习冲垮语义能力。
Key equations and mechanisms
其联合建模可写为:
总损失:
其中 约束语言/离散动作推理, 约束连续动作流;关键机制是对 embodied 分支做梯度隔离(action expert 不反传进 VLM 主干),降低灾难遗忘。
Experiment reading guide
优先读三点:
- Specialist 与 Generalist 两种设置下的 Table30 增益是否同时成立;
- 相比纯“后期适配”路线,性能提升来自数据源扩展还是训练机制;
- 空间脚手架(subtask / bbox / trajectory)对长时程成功率的贡献。
Limitations
- 工程复杂度高,训练阶段与数据治理成本大;
- 大规模多源数据融合可能引入分布噪声与评测偏置;
- 当前报告以 benchmark 成功率为主,安全性与失效可解释性仍需强化。
Future work
后续可把世界模型一致性约束与 uncertainty-aware 控制并入后训练,使“语义-动作-安全”三者形成统一优化目标。
Replication angle
可先复现“无梯度隔离”与“有梯度隔离”的对照,再加 Embodied Spatial Scaffolding;重点看不同任务域(导航/操作)的迁移差分。
Figure links
- https://arxiv.org/pdf/2602.14974.pdf (Fig.1, p1)
- ./out/telegram-cards/2026-02-18/dm0_fig.jpg
Graph: Paper Node 2602.14974