Title: Zero-Shot Robotic Manipulation via 3D Gaussian Splatting-Enhanced Multimodal Retrieval-Augmented Generation Authors: Zilong Xie, Jingyu Gong, Xin Tan, Zhizhong Zhang, Yuan Xie arXiv: https://arxiv.org/abs/2603.00500v1 Relevance: Medium
Problem framing
本文聚焦于:Existing end-to-end approaches of robotic manipulation often lack generalization to unseen objects or tasks due to limited data and poor interpretability. While recent Multimodal Large Language Models (MLLMs) demonstrate。从机器人/VLA视角,核心痛点是把“可解释目标”稳定映射到“可执行动作/轨迹”,并在分布外扰动下保持性能不塌陷。
Core method
结合3DGS与多模态RAG实现零样本操作决策,把场景几何记忆显式接入策略生成链路。 方法主线通常可写为“表示层(状态/语义)→ 中间机制层(优化/奖励/混合/检索)→ 控制层(动作生成/执行)”三级联动,强调训练-推理一致性与部署可行性。
Key equations and mechanisms
可用统一目标理解为:
\pi^* = rg\max_\pi \; \mathbb{E}_{ au\sim\pi}\left[\sum_t r_t^{task} + \lambda_1 r_t^{align} - \lambda_2 \mathcal{R}(\pi) ight]其中 对应语言-视觉-动作一致性或关键帧结构约束, 对应稳定性/约束罚项(如可行域、平滑性、风险)。
Experiment reading guide
建议先看:1)主任务成功率与样本效率曲线;2)OOD/扰动泛化;3)消融(去掉关键机制后性能回落幅度);4)推理时延或求解时间。
Limitations
当前证据通常仍受限于基准封闭性与任务分布;对真实长尾接触、传感噪声、跨本体迁移的覆盖仍可能不足。
Future work
可延展到:跨 embodiment 联合训练、world model + policy 协同后训练、以及具身安全约束的可证化集成。
Replication angle
优先复现最小闭环:同一数据协议 + 同一评测脚本 + 关键模块替换实验。先复现相对增益,再追求绝对 SOTA。
Figure links
https://arxiv.org/html/2603.00500v1/figure/figure1.png; https://arxiv.org/html/2603.00500v1/figure/figure2.png
Graph: Paper Node 2603.00500