DM0 An Embodied-Native Vision-Language-Action Model towards Physical AI

Title: DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI
Authors: En Yu, Haoran Lv, Jianjian Sun, et al.
arXiv: https://arxiv.org/abs/2602.14974

Problem framing

当前主流 VLA 往往走“互联网预训练→具身微调”，导致语义强、物理弱：高层理解与低层动作耦合不稳，跨导航与操作任务容易碎片化。DM0 直接把“物理先验”放进预训练起点，目标是做真正 embodied-native 的统一策略底座。

Core method

DM0 采用三阶段训练：Pretraining / Mid-Training / Post-Training，并围绕两条主线组织：

统一多源数据（web + driving + embodied）共同预训练 VLM；
在 VLM 上接 Flow Matching action expert，并通过混合梯度策略避免动作学习冲垮语义能力。

Key equations and mechanisms

其联合建模可写为：

π_{θ} (\hat{l}, a_{t : t + H} ∣ o_{t}, l) = π_{θ} (\hat{l} ∣ o_{t}, l) \cdot π_{θ} (a_{t : t + H} ∣ o_{t}, l, \hat{l})

总损失：

L_{t o t a l} = λ L_{A R} + L_{FM}

其中 $L_{A R}$ 约束语言/离散动作推理， $L_{FM}$ 约束连续动作流；关键机制是对 embodied 分支做梯度隔离（action expert 不反传进 VLM 主干），降低灾难遗忘。

Experiment reading guide

优先读三点：

Specialist 与 Generalist 两种设置下的 Table30 增益是否同时成立；
相比纯“后期适配”路线，性能提升来自数据源扩展还是训练机制；
空间脚手架（subtask / bbox / trajectory）对长时程成功率的贡献。

Limitations

工程复杂度高，训练阶段与数据治理成本大；
大规模多源数据融合可能引入分布噪声与评测偏置；
当前报告以 benchmark 成功率为主，安全性与失效可解释性仍需强化。

Future work

后续可把世界模型一致性约束与 uncertainty-aware 控制并入后训练，使“语义-动作-安全”三者形成统一优化目标。

Replication angle

可先复现“无梯度隔离”与“有梯度隔离”的对照，再加 Embodied Spatial Scaffolding；重点看不同任务域（导航/操作）的迁移差分。

Figure links

https://arxiv.org/pdf/2602.14974.pdf (Fig.1, p1)
./out/telegram-cards/2026-02-18/dm0_fig.jpg

Graph: Paper Node 2602.14974