Title: Neural Implicit Action Fields: From Discrete Waypoints to Continuous Functions for Vision-Language-Action Models
Authors: Haoyun Liu, Jianzhuang Zhao, Xinyuan Chang, Tianle Shi, Chuanzhang Meng, Jiayuan Tan, Feng Xiong, Tong Lin, et al.
arXiv: https://arxiv.org/abs/2603.01766

arXiv 页面无稳定直链图片。

Problem framing

主流 VLA 输出离散 waypoint,但真实机器人控制是连续时间过程。离散化会带来采样频率刚性、量化误差、不可高阶微分等问题,尤其在顺应性接触操作中会放大轨迹不平滑。

Core method

NIAF 把动作预测从“点序列回归”改成“隐式连续函数建模”:策略直接学习 的函数表示,而不是固定长度 waypoint 列表。这样推理时可按需要查询任意时间分辨率,兼顾高频控制与低延迟部署。

Key equations and mechanisms

核心可写作:

其中 是潜变量、 为视觉-语言条件。训练目标同时约束函数值拟合与导数平滑(文中强调高阶可微性)。相比离散 token/action chunk,隐式场表示更自然地提供时间连续先验。

Experiment reading guide

先看连续性相关指标(jerk/平滑度/轨迹误差),再看任务成功率;若平滑度提升且成功率不降,说明方法不是“只会画平滑轨迹但做不成任务”。其次关注不同采样频率下性能曲线,验证其分辨率弹性。

Limitations

隐式函数推理可能对实时系统带来额外函数查询成本;另外在强接触突变场景,连续先验可能与离散模式切换需求冲突。

Future work

可结合 hybrid implicit-discrete 机制:常规段用隐式连续场,接触事件点切换到离散模式;还可与 tactile 条件融合提升接触可控性。

Replication angle

复现时用同一 backbone 对比“离散 waypoint vs NIAF”,重点统计控制频率变化时的性能斜率与执行抖动频谱;若 NIAF 在高频段优势显著,说明其对真机闭环价值较高。

Graph: Paper Node 2603.01766