Title: Learning to Tune Pure Pursuit in Autonomous Racing: Joint Lookahead and Steering-Gain Control with PPO
Authors: Mohamed Elgouhary, Amr S. El-Wakeel
arXiv: https://arxiv.org/abs/2602.18386
Problem framing
Pure Pursuit 在自动驾驶/竞速里工程上很常用,但性能高度依赖 lookahead 与 steering gain 的联动调参。传统速度表驱动策略是静态近似,跨赛道与速度分布迁移差。
Core method
论文把“在线调参”建模为 RL 控制问题:策略在每个时刻联合输出 ,用 PPO 在多赛道训练,目标同时优化跟踪误差、稳定性与圈速,从而替代手工 schedule。
Key equations and mechanisms
核心机制是参数化控制律:
并由策略
在线生成。与固定映射相比,这等价于把几何跟踪器外包一层可学习自适应增益调度器。
Experiment reading guide
重点看三块:
- 跨赛道泛化:训练赛道外是否仍优于 velocity schedule
- 稳定性指标:过冲/振荡是否降低
- 实车或高保真仿真下的圈速-安全折中曲线
Limitations
方法依赖奖励设计与状态观测质量;若传感噪声或延迟分布变化大,策略可能出现激进调参,需要额外鲁棒约束。
Future work
可把安全约束(如轮胎侧偏角、横向加速度上界)显式纳入 CMDP/Lagrangian 训练,形成“可证安全的可学习调参器”。
Replication angle
对你关注的 robotics+RL 线,这篇适合作为“经典控制器 + 学习外环”模板:先保留可解释底层,再用 RL 学参数调度,部署风险比端到端策略更低。
Figure

Graph: Paper Node 2602.18386