《舰船科学技术》

文章标题:基于最大熵强化学习的自主船舶航迹跟踪研究

文章作者:翟宏睿1,2, 罗亮1,2, 杨萌3, 梁新月4, 焦仕昂1,2, 刘维勤1,2
关 键 字:自主船舶;航迹跟踪;最大熵强化学习;视线制导算法;优先经验回放
文章摘要:为解决自主船舶在航迹跟踪过程中使用最大熵强化学习作为控制器出现的收敛速度慢和训练时间长等问题,提出一种基于改进最大熵强化学习的航迹跟踪算法,引入了优先经验回放(PER)技术,并结合视线制导算法(LOS),构建PER-SAC的深度强化学习控制器,设计了相应的状态、动作空间和奖励函数。仿真结果表明,设计的PER-SAC控制器能快速收敛,收敛稳定后的控制器相较于原始SAC控制器控制性能更稳定,且控制精度更高,为自主船舶的航迹跟踪控制提供了一定参考价值。