Title: ActionCodec: What Makes for Good Action Tokenizers
Authors: Zibin Dong, Yicheng Liu, Shiduo Zhang, Baijun Ye, Yifu Yuan, Fei Ni, Jingjing Gong, Xipeng Qiu
arXiv: https://arxiv.org/abs/2602.15397
Problem framing
AR 范式 VLA 的上限很大程度受 action tokenizer 决定,但过去多数设计只优化“重建误差”,忽略其对策略优化动力学的影响。该文直接问:什么样的动作离散化,才真正利于 VLA 学习而不仅仅是还原动作。
Core method
论文从优化视角重定义 tokenizer 目标:
- 不仅看重建 fidelity,还看 token 对“可预测性、可组合性、梯度可学性”的贡献;
- 给出 tokenizer 设计原则与对比实验,分析不同 codebook/序列化策略对下游控制性能影响。
可写为多目标训练:
其中 直接约束 token 对控制任务可用性。
Experiment reading guide
优先看:
- 同等参数量下,不同 tokenizer 对任务成功率差距;
- 长时程任务中 token error accumulation 行为;
- token 语法结构与跨任务迁移性能的关联。
Limitations
- 评测任务仍以现有 benchmark 为主,真实部署工况覆盖有限;
- tokenizer 与 backbone 共适配成本较高;
- 离散化粒度选择对不同机器人平台可能不一致。
Future work
与世界模型 latent 对齐,构建“状态-动作共享 token 空间”,可能进一步提升规划与控制一体化效率。
Replication angle
建议做 codebook size、token length、预测头深度三因素网格实验,重点监控收敛速度与长时程误差累积。
Figure links
- https://arxiv.org/html/2602.15397v1/figures/arch.png
- https://arxiv.org/html/2602.15397v1/figures/benchmarks.png
Graph: Paper Node 2602.15397