2602.12215 通用具身数据摄取驱动LDA-1B

Title: LDA-1B: Scaling Latent Dynamics Action Model via Universal Embodied Data Ingestion
Authors: Jiangran Lyu, Kai Liu, Xuheng Zhang, Haoran Liao, Yusen Feng, Wenxuan Zhu, et al.
arXiv: https://arxiv.org/abs/2602.12215

关键图见：./out/telegram-cards/2026-02-13/2602.12215-fig1.jpg。

Problem framing

仅靠行为克隆会浪费异构具身数据里的动力学知识。UWM 路线可统一多源数据，但此前难以扩展到 foundation 级别。

Core method

LDA-1B 通过“通用数据摄取 + 角色分工训练”扩展：

用 EI-30k（3万+小时）统一人类/机器人轨迹格式；
在结构化 DINO latent 中做动力学预测，减少像素级冗余；
用多模态 diffusion transformer 处理异步视觉-动作流，并联合学 dynamics/policy/visual forecasting。

Key equations and mechanisms

抽象训练目标：

L = λ_{d} L_{d y n} (z_{t + 1} ∣ z_{t}, a_{t}) + λ_{π} L_{p o l i cy} + λ_{v} L_{f orec a s t} .

核心在于按数据质量分配监督角色，而非把所有数据等权塞进 BC。

Experiment reading guide

重点核查：

接触/灵巧/长时程任务分别 +21/+48/+23% 的贡献来源；
使用 30% 低质量轨迹仍 +10% 的条件边界；
latent dynamics 对 real transfer 的稳定性。

Limitations

训练规模大、工程复现门槛高；
数据标准化质量对收益上限影响很大。

Future work

引入不确定性建模，避免低质量轨迹在罕见接触场景放大偏差；
与在线自改进策略闭环结合，降低部署后域偏移。

Graph: Paper Node 2602.12215