3DGSNav - Enhancing Vision-Language Model Reasoning for Object Navigation via Active 3D Gaussian Splatting

Title: 3DGSNav - Enhancing Vision-Language Model Reasoning for Object Navigation via Active 3D Gaussian Splatting
Authors: Wancai Zheng, Hao Chen, Xianlong Lu, Linlin Ou, Xinyi Yu
arXiv: https://arxiv.org/abs/2602.12159

Problem framing

零样本目标导航常被“先感知后抽象”的误差链条拖累：低层建图误差会直接污染高层决策。本文尝试让 VLM 直接利用可渲染的 3D 持久记忆体。

Core method

3DGSNav 用主动感知持续构建 3D Gaussian Splatting 场景记忆，再以自由视角渲染 + 结构化视觉提示喂给 VLM（含 CoT），提升空间推理一致性。

Key equations and mechanisms

关键机制是把 frontier 探索与 3DGS 记忆更新闭环化：

M_{t + 1} = e x t U p d a t e_{3 D GS} (M_{t}, o_{t}, a_{t}), a_{t} \sim π_{V L M} (e x t R e n d er (M_{t}))

本质上把“稀疏观测 → 连续可查询记忆 → 推理动作”串成统一链路。

Experiment reading guide

看 ZSON 基准上：

成功率/路径长度相对语义地图方法提升幅度；
frontier-aware 渲染对错误转向率的影响；
复杂遮挡场景下记忆稳定性。

Limitations

3DGS 增量构建有计算和存储开销；
对快速动态场景可能存在记忆陈旧问题。

Future work

可把动态对象建模并入 3DGSNav，形成时变场景的可微记忆更新。

Replication angle

复现先保证渲染时延可控，再评估不同 prompt 结构对 VLM 决策一致性的贡献。

Figure links

arXiv 页面无稳定直链图片

Graph: Paper Node 2602.12159