针对直流蒸汽发生器二回路水容积小,负荷变化过程中蒸汽出口压力极易发生波动、难以控制的特点,设计一种基于强化学习PPO算法的直流蒸汽发生器蒸汽出口压力双层控制结构。该算法通过智能体选取PID参数作为强化学习中的动作Action输出,作用到被控对象,利用与其交互后得到奖励值的反馈进行智能体的在线学习,通过上层控制参数调整策略的在线学习和底层PID参数的跟踪调整,从而提升控制器的控制性能。通与传统PID控制算法进行仿真比对实验,验证了基于PPO算法的自适应PID控制器具有响应速度更快、超调量和调整时间更小等优点。
Because of the characteristics of the small water volume of once-through steam generator, it is hard to control the outlet steam pressure when load changed or disturbed. A double-layer control structure based on Proximal Policy Optimization(PPO) algorithm of reinforcement learning is proposed to control the outlet steam pressure of once-through steam generator. The reinforcement learning agent chooses PID parameters as action to the environment, and then reward value is obtained through the reward function which enables online learning of the agent. By this way the PPO algorithm realizes the online learning of parameters adjustment of upper layer and the adaptive adjustment of PID controller in lower layer, and improving the control performance of the controller. Comparing with traditional PID controller, the simulation experiment result shows that the PPO algorithm has small overshoot、fast response and shorter steady time.
2022,44(11): 89-94 收稿日期:2021-08-16
DOI:10.3404/j.issn.1672-7649.2022.11.019
分类号:TL361
基金项目:重点院校和重点学科建设项目;国防科工局核能开发科研项目
作者简介:李程(1989 – ),女,博士研究生,工程师,研究方向为核能科学与工程
参考文献:
[1] 刘鹏. 直流蒸汽发生器压力控制方法研究[D]. 哈尔滨: 哈尔滨工程大学, 2010.
[2] 赵刚, 赵宇兰, 刘金福. 套管式直流蒸汽发生器汽轮机一体化控制策略[J]. 节能技术, 2020, 38(220): 162–166
[3] 张月, 郑明光, 马志才, 等. 螺旋管式直流蒸汽发生器建模仿真与控制[J]. 应用科技, 2020, 47(313): 71–77
[4] 成守宇, 李程, 彭敏俊, 等. 基于人工免疫的直流蒸汽发生器压力控制研究[J]. 核动力工程, 2015, 36(210): 62–65
[5] 陈智, 廖龙涛, 刘立新, 等. T-S型模糊神经方法在直流蒸汽发生器给水控制中的应用研究[J]. 核动力工程, 2012, 33(193): 20–23+33
[6] 郭坤, 武曲, 张义. 基于PPO的机械臂控制研究方法[J]. 电脑知识与技术, 2021, 17(4): 222–225
[7] 周斌. 基于强化学习的智能汽车自主换道方法研究[D]. 长春:吉林大学, 2020.
[8] 周志华. 机器学习[M]. 北京: 清华大学出版社, 2015.
[9] 朱景艳, 张志俭, 郭赟. 套管式直流蒸汽发生器动态实时仿真研究[J]. 原子能科学技术, 2011, 45(8): 937–940+942