High 2603.01766 Neural Implicit Action Fields Continuous Functions for Vision Language Action

Title: Neural Implicit Action Fields: From Discrete Waypoints to Continuous Functions for Vision-Language-Action Models
Authors: Haoyun Liu, Jianzhuang Zhao, Xinyuan Chang, Tianle Shi, Chuanzhang Meng, Jiayuan Tan, Feng Xiong, Tong Lin, et al.
arXiv: https://arxiv.org/abs/2603.01766

arXiv 页面无稳定直链图片。

Problem framing

主流 VLA 输出离散 waypoint，但真实机器人控制是连续时间过程。离散化会带来采样频率刚性、量化误差、不可高阶微分等问题，尤其在顺应性接触操作中会放大轨迹不平滑。

Core method

NIAF 把动作预测从“点序列回归”改成“隐式连续函数建模”：策略直接学习 $a (t)$ 的函数表示，而不是固定长度 waypoint 列表。这样推理时可按需要查询任意时间分辨率，兼顾高频控制与低延迟部署。

Key equations and mechanisms

核心可写作：

a (t) = f_{t} h e t a (z, t, c)

其中 $z$ 是潜变量、 $c$ 为视觉-语言条件。训练目标同时约束函数值拟合与导数平滑（文中强调高阶可微性）。相比离散 token/action chunk，隐式场表示更自然地提供时间连续先验。

Experiment reading guide

先看连续性相关指标（jerk/平滑度/轨迹误差），再看任务成功率；若平滑度提升且成功率不降，说明方法不是“只会画平滑轨迹但做不成任务”。其次关注不同采样频率下性能曲线，验证其分辨率弹性。

Limitations

隐式函数推理可能对实时系统带来额外函数查询成本；另外在强接触突变场景，连续先验可能与离散模式切换需求冲突。

Future work

可结合 hybrid implicit-discrete 机制：常规段用隐式连续场，接触事件点切换到离散模式；还可与 tactile 条件融合提升接触可控性。

Replication angle

复现时用同一 backbone 对比“离散 waypoint vs NIAF”，重点统计控制频率变化时的性能斜率与执行抖动频谱；若 NIAF 在高频段优势显著，说明其对真机闭环价值较高。

Graph: Paper Node 2603.01766