针对未知环境下Agent自主决策的快速路径规划与避碰问题,将Q-learning与神经网络相结合,利用基于目标导向的动作策略与奖励函数的动态计算方法,以及优化的神经网络训练框架,构建Agent 避碰导航算法,通过仿真验证,表明算法有效,收敛速度较快,适应于静态障碍的避碰与导航,同时对Agent 随机指定出发点及障碍物微小变化的环境,具有一定的泛化能力,算法可以支持无人装备的自主路径导航。
For unknown environments Agent independent decision-making, fast path exploration and collision avoidance problem, we combine Q-learning with training network, use goal-oriented action strategy and dynamic calculation method of reward function, and build Agent collision avoidance path planning algorithm based on optimized Q-learning network training framework. Simulation verification shows that the algorithm is effective with fast convergence speed and it can adapt to the static obstacle-collision avoidance. Meanwhile, the algorithm has certain generalization ability to the Agent's different starting point and random obstacle position.
2024,46(22): 105-109 收稿日期:2024-1-30
DOI:10.3404/j.issn.1672-7649.2024.22.019
分类号:E92
作者简介:王凡(1970-),男,研究员,研究方向为电子信息系统总体
参考文献:
[1] 王毅然, 经小川, 田涛. 基于强化学习的多Agent 路径规划方法研究[J]. 计算机应用软件, 2019, 36(8): 165–171.
[2] 董瑶, 郭鸿勇. 基于深度强化学习的移动机器人路径规划[J]. 计算机工程与应用, 2019, 55(13): 15-19.
[3] HOANG H V,SANG H A. Dyna-Q-based vector direction for path planning problem of autonomous mobile robots in unknown environmentsAdvaced Robotics, 2013, 27(3): 159-173.
[4] 颜廷兴, 基于强化学习的移动机器人路径规划方法设计[D]. 济南: 济南大学, 2019.
[5] 江其州, 曾碧. 基于深度强化学习移动机器人导航策略研究[J]. 计算机测量与控制, 2019, 27(8): 217-221.
[6] 周思雨. 动态环境下多传感器行星车自适应路径规划方法研究[D]. 哈尔滨: 哈尔滨工业大学, 2019.
[7] 许亚. 基于强化学习的移动机器人路径规划研究[D]. 济南: 山东大学, 2013.
[8] 姜兰. 基于强化学习的智能小车路径规划[D]. 杭州: 浙江理工大学, 2018.
[9] 方川. 基于深度强化学习的无人驾驶车道保持决策的研究[D]. 南京: 南京大学, 2019.
[10] 钟宇平, 王丽丹. 基于神经网络及强化学习的智能控制系统[J]. 西南大学学报, 2013, 35(11): 172–176.