MOTIF Learning Action Motifs for Few-shot Cross-Embodiment Transfer

Title: MOTIF Learning Action Motifs for Few-shot Cross-Embodiment Transfer
Authors: Heng Zhi, Wentao Tan, Lei Zhu, Fengling Li, Jingjing Li, Guoli Yang, Heng Tao Shen
arXiv: https://arxiv.org/abs/2602.13764

Problem framing

VLA 通才能力提升后，真正难点转向“跨本体少样本迁移”：不同机械臂/手/躯干的动作空间不一致，导致共享-私有参数范式在数据少时很难稳健适配。

Core method

MOTIF 把跨本体动作拆成“可共享动作母题（motifs）+本体特异执行映射”：

用向量量化学习统一 motif token；
加入 progress-aware 对齐与 embodiment adversarial 约束，压低本体泄漏；
由轻量 predictor 预测 motif，再驱动 flow policy 结合本体状态生成动作。

Key equations and mechanisms

方法核心是离散母题瓶颈：

m_{1 : T} = VQ (a_{1 : T}), \overset{a}{^}_{t} = π_{flow} (o_{t}, s_{t}^{(e)}, m_{t})

其中 $m_{t}$ 承载跨本体可迁移时序结构， $s_{t}^{(e)}$ 注入本体特异约束，实现“共享语法 + 本体口音”。

Experiment reading guide

建议先看 few-shot 条件下：

仿真提升 6.5% 与真实提升 43.7% 的任务构成差异；
motif 数量对泛化/稳定性的 trade-off；
与 shared-private 基线在低样本区间的退化斜率对比。

Limitations

量化码本规模需要任务相关调参；
对极端新本体（自由度/接触模式差异很大）仍可能需要额外适配。

Future work

可将 motif 与语言子目标绑定，形成“语言-动作母题”联合离散空间，提升可解释任务分解能力。

Replication angle

复现建议先锁定码本大小与温度超参，再做本体留一验证，观察迁移是否来自真正结构共享而非数据泄漏。

Figure links

Graph: Paper Node 2602.13764