Title: LDA-1B: Scaling Latent Dynamics Action Model via Universal Embodied Data Ingestion
Authors: Jiangran Lyu, Kai Liu, Xuheng Zhang, Haoran Liao, Yusen Feng, Wenxuan Zhu, et al.
arXiv: https://arxiv.org/abs/2602.12215
关键图见:./out/telegram-cards/2026-02-13/2602.12215-fig1.jpg。
Problem framing
仅靠行为克隆会浪费异构具身数据里的动力学知识。UWM 路线可统一多源数据,但此前难以扩展到 foundation 级别。
Core method
LDA-1B 通过“通用数据摄取 + 角色分工训练”扩展:
- 用 EI-30k(3万+小时)统一人类/机器人轨迹格式;
- 在结构化 DINO latent 中做动力学预测,减少像素级冗余;
- 用多模态 diffusion transformer 处理异步视觉-动作流,并联合学 dynamics/policy/visual forecasting。
Key equations and mechanisms
抽象训练目标:
核心在于按数据质量分配监督角色,而非把所有数据等权塞进 BC。
Experiment reading guide
重点核查:
- 接触/灵巧/长时程任务分别 +21/+48/+23% 的贡献来源;
- 使用 30% 低质量轨迹仍 +10% 的条件边界;
- latent dynamics 对 real transfer 的稳定性。
Limitations
- 训练规模大、工程复现门槛高;
- 数据标准化质量对收益上限影响很大。
Future work
- 引入不确定性建模,避免低质量轨迹在罕见接触场景放大偏差;
- 与在线自改进策略闭环结合,降低部署后域偏移。
Graph: Paper Node 2602.12215