Title: ActionCodec: What Makes for Good Action Tokenizers
Authors: Zibin Dong, Yicheng Liu, Shiduo Zhang, Baijun Ye, Yifu Yuan, Fei Ni, Jingjing Gong, Xipeng Qiu
arXiv: https://arxiv.org/abs/2602.15397

Problem framing

AR 范式 VLA 的上限很大程度受 action tokenizer 决定,但过去多数设计只优化“重建误差”,忽略其对策略优化动力学的影响。该文直接问:什么样的动作离散化,才真正利于 VLA 学习而不仅仅是还原动作。

Core method

论文从优化视角重定义 tokenizer 目标:

  • 不仅看重建 fidelity,还看 token 对“可预测性、可组合性、梯度可学性”的贡献;
  • 给出 tokenizer 设计原则与对比实验,分析不同 codebook/序列化策略对下游控制性能影响。

可写为多目标训练:

其中 直接约束 token 对控制任务可用性。

Experiment reading guide

优先看:

  1. 同等参数量下,不同 tokenizer 对任务成功率差距;
  2. 长时程任务中 token error accumulation 行为;
  3. token 语法结构与跨任务迁移性能的关联。

Limitations

  • 评测任务仍以现有 benchmark 为主,真实部署工况覆盖有限;
  • tokenizer 与 backbone 共适配成本较高;
  • 离散化粒度选择对不同机器人平台可能不一致。

Future work

与世界模型 latent 对齐,构建“状态-动作共享 token 空间”,可能进一步提升规划与控制一体化效率。

Replication angle

建议做 codebook size、token length、预测头深度三因素网格实验,重点监控收敛速度与长时程误差累积。

Graph: Paper Node 2602.15397