Title: 3DGSNav - Enhancing Vision-Language Model Reasoning for Object Navigation via Active 3D Gaussian Splatting
Authors: Wancai Zheng, Hao Chen, Xianlong Lu, Linlin Ou, Xinyi Yu
arXiv: https://arxiv.org/abs/2602.12159
Problem framing
零样本目标导航常被“先感知后抽象”的误差链条拖累:低层建图误差会直接污染高层决策。本文尝试让 VLM 直接利用可渲染的 3D 持久记忆体。
Core method
3DGSNav 用主动感知持续构建 3D Gaussian Splatting 场景记忆,再以自由视角渲染 + 结构化视觉提示喂给 VLM(含 CoT),提升空间推理一致性。
Key equations and mechanisms
关键机制是把 frontier 探索与 3DGS 记忆更新闭环化:
本质上把“稀疏观测 → 连续可查询记忆 → 推理动作”串成统一链路。
Experiment reading guide
看 ZSON 基准上:
- 成功率/路径长度相对语义地图方法提升幅度;
- frontier-aware 渲染对错误转向率的影响;
- 复杂遮挡场景下记忆稳定性。
Limitations
- 3DGS 增量构建有计算和存储开销;
- 对快速动态场景可能存在记忆陈旧问题。
Future work
可把动态对象建模并入 3DGSNav,形成时变场景的可微记忆更新。
Replication angle
复现先保证渲染时延可控,再评估不同 prompt 结构对 VLM 决策一致性的贡献。
Figure links
- arXiv 页面无稳定直链图片
Graph: Paper Node 2602.12159