《舰船科学技术》

文章标题:元强化学习在AUV多任务快速自适应控制的应用

文章作者:徐春晖1,2, 杨士霖1,2,3, 徐德胜1,2,3, 方田1,2,3
关 键 字:AUV;元强化学习;最优初始值模型参数;快速收敛
文章摘要:为解决基于深度强化学习的AUV跟踪控制器在面临新任务时需从零开始训练、训练速度慢、稳定性差等问题,设计一种基于元强化学习的AUV多任务快速自适应控制算法——R-SAC(Reptile-Soft Actor Critic)算法。R-SAC算法将元学习与强化学习相结合,结合水下机器人运动学及动力学方程对跟踪任务进行建模,利用R-SAC算法在训练阶段为AUV跟踪控制器获得一组最优初始值模型参数,使模型在面临不同的任务时,基于该组参数进行训练时能够快速收敛,实现快速自适应不同任务。仿真结果表明,所提出的方法与随机初始化强化学习控制器相比,收敛速度最低提高了1.6倍,跟踪误差保持在2.8%以内。