Title: LDA-1B: Scaling Latent Dynamics Action Model via Universal Embodied Data Ingestion
Authors: Jiangran Lyu, Kai Liu, Xuheng Zhang, Haoran Liao, Yusen Feng, Wenxuan Zhu, et al.
arXiv: https://arxiv.org/abs/2602.12215

关键图见:./out/telegram-cards/2026-02-13/2602.12215-fig1.jpg

Problem framing

仅靠行为克隆会浪费异构具身数据里的动力学知识。UWM 路线可统一多源数据,但此前难以扩展到 foundation 级别。

Core method

LDA-1B 通过“通用数据摄取 + 角色分工训练”扩展:

  • 用 EI-30k(3万+小时)统一人类/机器人轨迹格式;
  • 在结构化 DINO latent 中做动力学预测,减少像素级冗余;
  • 用多模态 diffusion transformer 处理异步视觉-动作流,并联合学 dynamics/policy/visual forecasting。

Key equations and mechanisms

抽象训练目标:

核心在于按数据质量分配监督角色,而非把所有数据等权塞进 BC。

Experiment reading guide

重点核查:

  1. 接触/灵巧/长时程任务分别 +21/+48/+23% 的贡献来源;
  2. 使用 30% 低质量轨迹仍 +10% 的条件边界;
  3. latent dynamics 对 real transfer 的稳定性。

Limitations

  • 训练规模大、工程复现门槛高;
  • 数据标准化质量对收益上限影响很大。

Future work

  • 引入不确定性建模,避免低质量轨迹在罕见接触场景放大偏差;
  • 与在线自改进策略闭环结合,降低部署后域偏移。

Graph: Paper Node 2602.12215