专利基于ME-TD3算法的风电场动态参数智能校核方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202110265065.9 (22)申请日 2021.03.10 (65)同一申请的已公布的文献号申请公布号 CN 113032934 A (43)申请公布日 2021.06.25 (73)专利权人东北电力大学地址 132012 吉林省吉林市船营区长春路 169号专利权人国网吉林省电力有限公司吉林供电公司 (72)发明人安军　周庆锋　刘征帆　金宏　蒋振国　季轶　王玉鹏　杨宇童　 (74)专利代理机构吉林市达利专利事务所 22102 专利代理师陈传林 (51)Int.Cl. G06F 30/18(2020.01) G06F 30/27(2020.01) G06N 3/08(2006.01) G06F 111/02(2020.01) G06F 113/06(2020.01)(56)对比文件 CN 110210113 A,2019.09.0 6 CN 110341690 A,2019.10.18 CN 109934332 A,2019.0 6.25 CN 111062632 A,2020.04.24 CN 110919659 A,2020.0 3.27 KR 20200126822 A,2020.1 1.09 时圣苗.面向深度强化学习的经验回放方法研究. 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 .2021,I140 -489. Jiawen L i.Efficient experience replay based de ep determi nistic po licy gradient for. 《Applied Energy》 .2021,1-17. Qijie Zou.An end-to-end learn ing of driving strategies based o n DDPG and imitation learning. 《2020 C hinese Control And Decisi on Conference (C CDC)》 .2020,1- 10. 陈松.基于经验重放的深度强化学习算法研究. 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 .2021,I140 -494. (续) 审查员周佳利 (54)发明名称基于ME-TD3算法的风电场动态参数智能校核方法 (57)摘要本发明是一种基于ME ‑TD3算法的风电场动态参数智能校核方法，其特点是，在双馈风电场等值模型的基础上，对深度强化学习的新进展深度确定性策略梯度算法进行改进，提出了多经验池概率回放的双延迟深度确定性策略梯度算法。针对深度确定性策略梯度算法存在的高维度状态动作空间收敛速度较慢和网络高方差、过拟合的问题，该算法采取双经验池的方法提高了抽样时有效经验被选取的概率，提高了网络训练的效率，同时采取多种技巧来提高ME ‑TD3算法中评价网络估值的准确度，从而提高了风电场动态参数校核的准确性，具有科学合理、适用性强、效果佳的优点。 [转续页] 权利要求书2页说明书7页附图3页 CN 113032934 B 2022.09.20 CN 113032934 B (56)对比文件安军.大规模电力系统潮流计算收敛性诊断与调整方法. 《分析与研究》 .2020, 康朝海等.基于动态延迟策略更新的TD3算法. 《吉林大学学报(信息科学版)》 .2020,(第04期), 王垚儒等.采用双经验回放池的噪声流双延迟深度确定性策略梯度算法. 《武汉科技大学学报》 .2020,(第02期), 范龙.基于多智能体模型的电力系统信息集成应用研究. 《中国新通信》 .2018,95.2/2 页 2[接上页] CN 113032934 B1.一种基于 ME‑TD3算法的风电场动态参数智能校核方法，其特征是，它包括以下内容： 1)裁剪双Q学习：在对裁剪双Q学习的基础上，对裁剪双Q学习进行改进，设置两套评价网络来估算Q值，并取相对较小的Q值作为两个网络更新的目标，目标值计算见式(1)，损失函数见式(2)，网络的初始参数不同决定两个网络的Q值会出现差异，通过选择小的Q值进行估计，式中， y为目标值函数， r为即刻回报值， γ为折扣率，为状态s'和动作下的目标价值函数， θ为评价网络的权重参数， φ为动作网络的权重参数， d为动作停止标志位，表示存放经验的经验池； 2)延迟策略更新：当动作网络保持不变时，是否更新目标网络都不会影响价值函数的正确收敛；但当动作和评价网同步更新时，不采用目标网络就能够使得训练不稳定或发散，因此，为减小动作网络更新所导致的目标变化所带来的波动性，评价网络的更新频率要高于动作网络的更新频率，评价网更新k次后动作网更新1次来解决策略和值函数的耦合问题； 3)目标策略平滑： ME ‑TD3算法在构建价值函数的更新目标过程中，在原有动作的基础上针对每一维度都施加一个服从正态分布的扰动值，并将施加扰动后的动作值限定在规定范围之内，见式(3)，式中， a'(s')为状态s'下的动作值，为动作网络输出值， ε为正态分布扰动值， σ 为正态分布方差， ‑c和c分别为正态分布扰动值的上、下限， aLow和aHigh分别为动作值上、下限； 4)多经验池概率回放： ME ‑TD3算法根据样本对网络训练的影响程度对其进行分类，将经验池一分为二，经验池1存放优质样本，经验池2存放一般样本，优质样本取到的概率高，一般样本取到的概率低，具体步骤为： ①首先初始化PSAT仿真环境和ME ‑TD3算法中的动作网络、评价网络1以及评价网络2的权重参数θμ、 θμ′、以及探索方差σ，对于每个回合，都给出一组符合校核参数范围要求的参数初值s； ②将参数初值s输入到ME ‑TD3算法中的动作网络中，通过施加探索方差σ 得到参数的一组校核策略a，通过校核策略求出调整后的参数s ′，将调整后的参数s ′与仿真环境PSAT进行交互，求出有功功率、机端电压的仿真轨迹与实测轨迹的偏差值，即回报函数值r，以及仿真轨迹是否发散的标志位done，将调整前后的参数s和s ′，以及校核策略a、回报函数值r、仿真轨迹是否发散的标志位done作为一条经验根据回报函数来决定这条经验存入经验池1，还是经验池2中，当经验池1容量不足一半时，回报函数值r大于 ‑1的经验存入经验池1中，其他权　利　要　求　书 1/2 页 2 CN 113032934 B 3

专利 基于ME-TD3算法的风电场动态参数智能校核方法

专利基于ME-TD3算法的风电场动态参数智能校核方法