Title: MOTIF Learning Action Motifs for Few-shot Cross-Embodiment Transfer
Authors: Heng Zhi, Wentao Tan, Lei Zhu, Fengling Li, Jingjing Li, Guoli Yang, Heng Tao Shen
arXiv: https://arxiv.org/abs/2602.13764

Problem framing

VLA 通才能力提升后,真正难点转向“跨本体少样本迁移”:不同机械臂/手/躯干的动作空间不一致,导致共享-私有参数范式在数据少时很难稳健适配。

Core method

MOTIF 把跨本体动作拆成“可共享动作母题(motifs)+本体特异执行映射”:

  • 用向量量化学习统一 motif token;
  • 加入 progress-aware 对齐与 embodiment adversarial 约束,压低本体泄漏;
  • 由轻量 predictor 预测 motif,再驱动 flow policy 结合本体状态生成动作。

Key equations and mechanisms

方法核心是离散母题瓶颈:

其中 承载跨本体可迁移时序结构, 注入本体特异约束,实现“共享语法 + 本体口音”。

Experiment reading guide

建议先看 few-shot 条件下:

  • 仿真提升 6.5% 与真实提升 43.7% 的任务构成差异;
  • motif 数量对泛化/稳定性的 trade-off;
  • 与 shared-private 基线在低样本区间的退化斜率对比。

Limitations

  • 量化码本规模需要任务相关调参;
  • 对极端新本体(自由度/接触模式差异很大)仍可能需要额外适配。

Future work

可将 motif 与语言子目标绑定,形成“语言-动作母题”联合离散空间,提升可解释任务分解能力。

Replication angle

复现建议先锁定码本大小与温度超参,再做本体留一验证,观察迁移是否来自真正结构共享而非数据泄漏。

Graph: Paper Node 2602.13764