Learning to Tune Pure Pursuit in Autonomous Racing Joint Lookahead and Steering-Gain Control with PPO

Title: Learning to Tune Pure Pursuit in Autonomous Racing: Joint Lookahead and Steering-Gain Control with PPO
Authors: Mohamed Elgouhary, Amr S. El-Wakeel
arXiv: https://arxiv.org/abs/2602.18386

Problem framing

Pure Pursuit 在自动驾驶/竞速里工程上很常用，但性能高度依赖 lookahead $L_{d}$ 与 steering gain $g$ 的联动调参。传统速度表驱动策略是静态近似，跨赛道与速度分布迁移差。

Core method

论文把“在线调参”建模为 RL 控制问题：策略在每个时刻联合输出 $(L_{d}, g)$ ，用 PPO 在多赛道训练，目标同时优化跟踪误差、稳定性与圈速，从而替代手工 schedule。

Key equations and mechanisms

核心机制是参数化控制律：

δ_{t} = g_{t} \cdot f_{PP} (e_{t}, L_{d, t})

并由策略

(L_{d, t}, g_{t}) = π_{θ} (s_{t})

在线生成。与固定映射相比，这等价于把几何跟踪器外包一层可学习自适应增益调度器。

Experiment reading guide

重点看三块：

跨赛道泛化：训练赛道外是否仍优于 velocity schedule
稳定性指标：过冲/振荡是否降低
实车或高保真仿真下的圈速-安全折中曲线

Limitations

方法依赖奖励设计与状态观测质量；若传感噪声或延迟分布变化大，策略可能出现激进调参，需要额外鲁棒约束。

Future work

可把安全约束（如轮胎侧偏角、横向加速度上界）显式纳入 CMDP/Lagrangian 训练，形成“可证安全的可学习调参器”。

Replication angle

对你关注的 robotics+RL 线，这篇适合作为“经典控制器 + 学习外环”模板：先保留可解释底层，再用 RL 学参数调度，部署风险比端到端策略更低。

Figure

Graph: Paper Node 2602.18386