《舰船科学技术》

文章标题:基于改进Q学习算法的AUV路径规划

文章作者:黄昱舟, 胡庆玉, 熊华乔
关 键 字:自主水下航行器;路径规划;Q学习;Softmax策略;距离奖惩机制
文章摘要:针对欠驱动AUV全局路径规划问题,提出一种轻量级改进Q学习算法。设计距离奖励函数加快学习速率,提高算法稳定性,结合ε贪婪策略和Softmax策略提供一种平衡探索与利用的机制,根据AUV运动约束简化动作集合提高计算时间。仿真结果表明,改进的算法能够高效解决AUV路径规划问题,提升算法稳定性与适用范围。相比较传统Q学习算法,执行短距离任务时,算法学习效率提高90%,路径长度缩短7.85%,转向次数减少14.29%,执行长距离任务时,学习效率提高67.5%,路径长度缩短6.10%,转向次数减少32.14%。