(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202110265065.9
(22)申请日 2021.03.10
(65)同一申请的已公布的文献号
申请公布号 CN 113032934 A
(43)申请公布日 2021.06.25
(73)专利权人 东北电力大 学
地址 132012 吉林省吉林市船 营区长春路
169号
专利权人 国网吉林省电力有限公司吉林供
电公司
(72)发明人 安军 周庆锋 刘征帆 金宏
蒋振国 季轶 王玉鹏 杨宇童
(74)专利代理 机构 吉林市达利专利事务所
22102
专利代理师 陈传林
(51)Int.Cl.
G06F 30/18(2020.01)
G06F 30/27(2020.01)
G06N 3/08(2006.01)
G06F 111/02(2020.01)
G06F 113/06(2020.01)(56)对比文件
CN 110210113 A,2019.09.0 6
CN 110341690 A,2019.10.18
CN 109934332 A,2019.0 6.25
CN 111062632 A,2020.04.24
CN 110919659 A,2020.0 3.27
KR 20200126822 A,2020.1 1.09
时圣苗.面向深度强化学习的经验回放方法
研究. 《中国优秀硕士学位 论文全文数据库 (信
息科技辑)》 .2021,I140 -489.
Jiawen L i.Efficient experience replay
based de ep determi nistic po licy gradient
for. 《Applied Energy》 .2021,1-17.
Qijie Zou.An end-to-end learn ing of
driving strategies based o n DDPG and
imitation learning. 《2020 C hinese Control
And Decisi on Conference (C CDC)》 .2020,1-
10.
陈松.基于经验重放的深度强化学习算法研
究. 《中国优秀硕士学位 论文全文数据库 (信息
科技辑)》 .2021,I140 -494. (续)
审查员 周佳利
(54)发明名称
基于ME-TD3算法的风电场动态参数智 能校
核方法
(57)摘要
本发明是一种基于ME ‑TD3算法的风电场动
态参数智能校核方法, 其特点是, 在双馈风电场
等值模型的基础上, 对深度强化学习的新进展深
度确定性策略梯度算法进行改进, 提出了多经验
池概率回放的双延迟深度确定性策略梯度算法。
针对深度确定性策略梯度算法存在的高维度状
态动作空间收敛速度较慢和网络高方差、 过拟合
的问题, 该算法采取双经验池的方法提高了抽样
时有效经验被选取的概率, 提高了网络训练的效
率, 同时采取多种技巧来提高ME ‑TD3算法中评价
网络估值的准确度, 从而提高了风电场动态参数校核的准确性, 具有科学合理、 适用性强、 效果佳
的优点。
[转续页]
权利要求书2页 说明书7页 附图3页
CN 113032934 B
2022.09.20
CN 113032934 B
(56)对比文件
安军.大规模电力系统潮流计算收敛性诊断
与调整方法. 《分析与研究》 .2020,
康朝海等.基 于动态延迟策略更新的TD3算
法. 《吉林大 学学报(信息科 学版)》 .2020,(第04期),
王垚儒等.采用双经验回放池的噪声流双延
迟深度确定性策略梯度算法. 《武汉科技大 学学
报》 .2020,(第02期),
范龙.基于多智能体模型的电力系统信息集
成应用研究. 《中国新 通信》 .2018,95.2/2 页
2[接上页]
CN 113032934 B1.一种基于 ME‑TD3算法的风电场动态参数智能校核方法, 其特 征是, 它包括以下内容:
1)裁剪双Q学习: 在对裁剪双Q学习的基础上, 对裁剪双Q学习进行改进, 设置两套评价
网络来估算Q值, 并取相 对较小的Q值作为两个网络更新的目标, 目标值计算见式(1), 损失
函数见式(2), 网络的初始 参数不同决定两个网络的Q值会出现差异, 通过选择小的Q值进 行
估计,
式中, y为目标值函数, r为即刻回报值, γ为折扣率,
为状态s'和动作
下的目
标价值函数, θ为评价网络的权重参数, φ为动作网络的权重参数, d为动作停止标志位,
表示存放经验的经验 池;
2)延迟策略更新: 当动作网络保持不变时, 是否更新目标网络都不会影响价值函数的
正确收敛; 但当动作和评价网同步更新时, 不采用目标网络就能够 使得训练不稳定或发散,
因此, 为减小动作网络更新所导致的目标变化所带来的波动性, 评价网络的更新频率要高
于动作网络的更新频率, 评价网更新k次后动作网更新1次来解决策略和值函数的耦合问
题;
3)目标策略平滑: ME ‑TD3算法在构建价值函数的更新目标过程中, 在原有动作的基础
上针对每一 维度都施加一个服从正态分布的扰动值, 并将施加扰动后的动作值限定在规定
范围之内, 见式(3),
式中, a'(s')为状态s'下的动作值,
为动作网络输出值, ε为正态分布扰动值, σ
为正态分布方差, ‑c和c分别为正态分布扰动值的上、 下限, aLow和aHigh分别为动作值上、 下
限;
4)多经验池概率回放: ME ‑TD3算法根据样本对网络训练的影响程度对其进行分类, 将
经验池一分为二, 经验池1存放优质样本, 经验池2存放一般样本, 优质样本取到的概率高,
一般样本取到的概 率低, 具体步骤为:
①首先初始化PSAT仿真环境和ME ‑TD3算法中的动作网络、 评价网络1以及评价网络2的
权重参数θμ、 θμ′、
以及探索方差σ, 对于每个回合, 都给出一组符合校核
参数范围要求的参数初值s;
②将参数初值s输入到ME ‑TD3算法中的动作网络中, 通过施加探索方差σ 得到参数的一
组校核策略a, 通过校核 策略求出调整后的参数s ′, 将调整后的参数s ′与仿真环境PSAT进 行
交互, 求出有功功 率、 机端电压的仿 真轨迹与实测轨迹的偏差值, 即回报函数值r, 以及仿 真
轨迹是否发散的标志位done, 将调整 前后的参数s和s ′, 以及校核策略a、 回报函数值r、 仿 真
轨迹是否发散的标志位done作为一条经验根据回报函数来决定这条经验存入经验池1, 还
是经验池2中, 当经验池1容量不 足一半时, 回报函数值r大于 ‑1的经验存入 经验池1中, 其他权 利 要 求 书 1/2 页
2
CN 113032934 B
3
专利 基于ME-TD3算法的风电场动态参数智能校核方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 03:22:41上传分享