ActionCodec What Makes for Good Action Tokenizers

Title: ActionCodec: What Makes for Good Action Tokenizers
Authors: Zibin Dong, Yicheng Liu, Shiduo Zhang, Baijun Ye, Yifu Yuan, Fei Ni, Jingjing Gong, Xipeng Qiu
arXiv: https://arxiv.org/abs/2602.15397

Problem framing

AR 范式 VLA 的上限很大程度受 action tokenizer 决定，但过去多数设计只优化“重建误差”，忽略其对策略优化动力学的影响。该文直接问：什么样的动作离散化，才真正利于 VLA 学习而不仅仅是还原动作。

Core method

论文从优化视角重定义 tokenizer 目标：

不仅看重建 fidelity，还看 token 对“可预测性、可组合性、梯度可学性”的贡献；
给出 tokenizer 设计原则与对比实验，分析不同 codebook/序列化策略对下游控制性能影响。

可写为多目标训练：

L_{t o k} = λ_{1} L_{rec} + λ_{2} L_{p re d} + λ_{3} L_{c t r l}

其中 $L_{c t r l}$ 直接约束 token 对控制任务可用性。

Experiment reading guide

优先看：

同等参数量下，不同 tokenizer 对任务成功率差距；
长时程任务中 token error accumulation 行为；
token 语法结构与跨任务迁移性能的关联。

Limitations

评测任务仍以现有 benchmark 为主，真实部署工况覆盖有限；
tokenizer 与 backbone 共适配成本较高；
离散化粒度选择对不同机器人平台可能不一致。

Future work

与世界模型 latent 对齐，构建“状态-动作共享 token 空间”，可能进一步提升规划与控制一体化效率。

Replication angle

建议做 codebook size、token length、预测头深度三因素网格实验，重点监控收敛速度与长时程误差累积。

Figure links

Graph: Paper Node 2602.15397