Joint-Aligned Latent Action Towards Scalable VLA Pretraining in the Wild

Title: Joint-Aligned Latent Action Towards Scalable VLA Pretraining in the Wild Authors: Hao Luo et al. arXiv: https://arxiv.org/abs/2602.21736

arXiv 页面无稳定直链图片（HTML 侧未提供可长期复用的 figure URL）；Telegram 卡片图改用本地提取关键图。

Problem framing

围绕“野外视频规模大但动作标注噪声高”的核心矛盾，JALA 用关节对齐潜动作替代显式三维手部重建，把表征学习问题转写为可扩展的潜空间动力学建模。其关键价值在于：在不牺牲数据规模的前提下，把动作监督从脆弱的逐帧关键点转向鲁棒的动力一致性约束。

Core method

该方法围绕 Robotics/VLA 主线中的可扩展性与鲁棒性问题，采用“结构化中间表示 + 任务约束”的方案，而非纯参数堆叠。

Key equations and mechanisms

作者构建关节对齐编码器 $z_{t} = f_{h} e t a (o_{t})$ ，并学习潜动作 $a_{t}^{ℓ}$ 使得 $z_{t+1}pprox g_\phi(z_t,a_t^\ell)$ 。训练目标由重建/预测项与对齐正则组成： $L = L_{p re d} (z_{t + 1}, g_{ϕ} (z_{t}, a_{t}^{ℓ})) + λ L_{a l i g n} (a_{t}^{ℓ}, \overset{q}{^}_{t})$ 其中 $\overset{q}{^}_{t}$ 是弱监督关节线索。该机制本质上是“以动力可预测性替代精确姿态真值”。

Experiment reading guide

先看主任务成功率与长时地平线性能曲线。
再看消融：去掉关键机制后的退化幅度。
最后看跨场景/跨形态泛化，判断是否对真实机器人部署有意义。

Limitations

真实系统 latency、感知噪声、接触不确定性可能弱化离线收益。
数据分布若与目标场景差异过大，机制优势可能被 domain gap 吞噬。

Future work

与在线校准/测试时自适应结合，形成闭环部署范式。
与更强物理先验（接触、动力学约束）联合训练。

Replication angle

优先复现作者公开 benchmark 上的最小闭环。
记录可复现实验的三个关键旋钮：训练数据粒度、动作块长度/控制频率、推理时纠偏触发阈值。
评估指标建议补充“失败恢复时间”和“单次任务能耗”。

Graph: Paper Node 2602.21736