GraspLDP Towards Generalizable Grasping Policy via Latent Diffusion

Title: GraspLDP: Towards Generalizable Grasping Policy via Latent Diffusion
Authors: Enda Xiang, Haoxiang Ma, Xinzhu Ma, Zicheng Liu, Di Huang
arXiv: https://arxiv.org/abs/2602.22862

Problem framing

扩散策略在 manipulation 中很强，但抓取子任务仍常见“抓得住但抓不准”：接触位姿抖动、物体外观变化后泛化下降、空间偏移误差放大。

Core method

GraspLDP 将抓取策略学习放到 latent diffusion 空间中，目标是把抓取动作分布的多模态性（不同可行抓取位姿）编码得更稳定，同时通过条件约束提升对新物体/新位姿泛化。

Key equations and mechanisms

形式上可视作条件扩散策略：

ϵ_{θ} (z_{t}, o, t) \to z_{0}, a = π (z_{0}, o),

并通过抓取几何一致性约束

L = L_{diff} + λ L_{grasp-geom}

约束末端姿态与物体局部几何匹配，减少“看似可行但接触失败”的动作采样。

Experiment reading guide

优先看跨对象泛化、遮挡场景、以及精细抓取成功率；再看与常见 diffusion policy 的 sampling 步数/时延比较，判断部署可行性。

Limitations

latent 表示与视觉编码器强耦合，迁移到新传感器可能掉点；
扩散采样开销仍高于轻量回归策略；
抓取后续操作（lift/place）的一致性尚需端到端验证。

Future work

可与 tactile feedback 融合做后接触修正，把“先验抓取位姿”升级为“闭环抓取轨迹”；也可探索一致性模型/流匹配降低采样成本。

Replication angle

建议在同一硬件平台复现实验时分解评估：候选抓取生成质量、执行跟踪误差、最终任务成功率，避免仅看最终成功率而忽略中间机制收益。

arXiv 页面无稳定直链图片。

Graph: Paper Node 2602.22862