Title: PhysiFlow: Physics-Aware Humanoid Whole-Body VLA via Multi-Brain Latent Flow Matching and Robust Tracking
Authors: Weikai Qin, Sichen Wu, Ci Chen, Mengfan Liu, Linxi Feng, Xinru Cui, Haoqi Han, Hesheng Wang
arXiv: https://arxiv.org/abs/2603.05410

这篇工作的核心价值是把“语义推理”和“全身动力学可执行性”放进同一个闭环里:高层 VLA 不只输出离散动作 token,而是输出可被低层鲁棒跟踪器吸收的潜在运动意图,从而减少 humanoid 在动态协同任务中的失稳与延迟放大。

作者提出 multi-brain 结构,本质上是把策略拆成多时间尺度决策器:语义脑处理任务与语言约束,运动脑处理全身协同轨迹,物理脑处理可行性与接触一致性。这个分解降低了单一 policy 在高维动作空间中的梯度耦合负担。

方法上采用 latent flow matching,把动作分布学习写成从噪声到可行动作流形的连续流。可理解为学习速度场 ,使潜变量满足

其中 包含视觉、语言与本体状态。相比自回归 token 生成,它更适合连续控制且延迟更稳定。

物理约束不是后处理硬裁剪,而是训练期就加入动力学一致性损失与跟踪稳定项。若记参考全身状态为 、执行状态为 ,可抽象为

这让 policy 学到“可被控制器追上的动作”,而不是仅在离线指标上好看。

实验层面重点应看三类可验证点:

  1. 复杂 limb coordination 下的成功率与跌倒率;
  2. 推理时延分布(P50/P95)是否优于重型推理基线;
  3. 在外力扰动或感知噪声下的恢复时间。

与 Wanpeng 主线高度对齐的原因:它直接攻克 humanoid whole-body + VLA 的部署断点(语义强但控制弱)。若结果可靠,可作为“语义-动力学解耦再耦合”的代表方案进入精读优先级。

潜在风险:multi-brain 结构可能依赖较重工程调参;若跨机器人形态泛化实验不足,结论可能局限在特定平台。复现时优先检查模块间接口定义与时钟同步机制。

Graph: Paper Node 2603.05410