说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202110265065.9 (22)申请日 2021.03.10 (65)同一申请的已公布的文献号 申请公布号 CN 113032934 A (43)申请公布日 2021.06.25 (73)专利权人 东北电力大 学 地址 132012 吉林省吉林市船 营区长春路 169号 专利权人 国网吉林省电力有限公司吉林供 电公司 (72)发明人 安军 周庆锋 刘征帆 金宏  蒋振国 季轶 王玉鹏 杨宇童  (74)专利代理 机构 吉林市达利专利事务所 22102 专利代理师 陈传林 (51)Int.Cl. G06F 30/18(2020.01) G06F 30/27(2020.01) G06N 3/08(2006.01) G06F 111/02(2020.01) G06F 113/06(2020.01)(56)对比文件 CN 110210113 A,2019.09.0 6 CN 110341690 A,2019.10.18 CN 109934332 A,2019.0 6.25 CN 111062632 A,2020.04.24 CN 110919659 A,2020.0 3.27 KR 20200126822 A,2020.1 1.09 时圣苗.面向深度强化学习的经验回放方法 研究. 《中国优秀硕士学位 论文全文数据库 (信 息科技辑)》 .2021,I140 -489. Jiawen L i.Efficient experience replay based de ep determi nistic po licy gradient for. 《Applied Energy》 .2021,1-17. Qijie Zou.An end-to-end learn ing of driving strategies based o n DDPG and imitation learning. 《2020 C hinese Control And Decisi on Conference (C CDC)》 .2020,1- 10. 陈松.基于经验重放的深度强化学习算法研 究. 《中国优秀硕士学位 论文全文数据库 (信息 科技辑)》 .2021,I140 -494. (续) 审查员 周佳利 (54)发明名称 基于ME-TD3算法的风电场动态参数智 能校 核方法 (57)摘要 本发明是一种基于ME ‑TD3算法的风电场动 态参数智能校核方法, 其特点是, 在双馈风电场 等值模型的基础上, 对深度强化学习的新进展深 度确定性策略梯度算法进行改进, 提出了多经验 池概率回放的双延迟深度确定性策略梯度算法。 针对深度确定性策略梯度算法存在的高维度状 态动作空间收敛速度较慢和网络高方差、 过拟合 的问题, 该算法采取双经验池的方法提高了抽样 时有效经验被选取的概率, 提高了网络训练的效 率, 同时采取多种技巧来提高ME ‑TD3算法中评价 网络估值的准确度, 从而提高了风电场动态参数校核的准确性, 具有科学合理、 适用性强、 效果佳 的优点。 [转续页] 权利要求书2页 说明书7页 附图3页 CN 113032934 B 2022.09.20 CN 113032934 B (56)对比文件 安军.大规模电力系统潮流计算收敛性诊断 与调整方法. 《分析与研究》 .2020, 康朝海等.基 于动态延迟策略更新的TD3算 法. 《吉林大 学学报(信息科 学版)》 .2020,(第04期), 王垚儒等.采用双经验回放池的噪声流双延 迟深度确定性策略梯度算法. 《武汉科技大 学学 报》 .2020,(第02期), 范龙.基于多智能体模型的电力系统信息集 成应用研究. 《中国新 通信》 .2018,95.2/2 页 2[接上页] CN 113032934 B1.一种基于 ME‑TD3算法的风电场动态参数智能校核方法, 其特 征是, 它包括以下内容: 1)裁剪双Q学习: 在对裁剪双Q学习的基础上, 对裁剪双Q学习进行改进, 设置两套评价 网络来估算Q值, 并取相 对较小的Q值作为两个网络更新的目标, 目标值计算见式(1), 损失 函数见式(2), 网络的初始 参数不同决定两个网络的Q值会出现差异, 通过选择小的Q值进 行 估计, 式中, y为目标值函数, r为即刻回报值, γ为折扣率, 为状态s'和动作 下的目 标价值函数, θ为评价网络的权重参数, φ为动作网络的权重参数, d为动作停止标志位, 表示存放经验的经验 池; 2)延迟策略更新: 当动作网络保持不变时, 是否更新目标网络都不会影响价值函数的 正确收敛; 但当动作和评价网同步更新时, 不采用目标网络就能够 使得训练不稳定或发散, 因此, 为减小动作网络更新所导致的目标变化所带来的波动性, 评价网络的更新频率要高 于动作网络的更新频率, 评价网更新k次后动作网更新1次来解决策略和值函数的耦合问 题; 3)目标策略平滑: ME ‑TD3算法在构建价值函数的更新目标过程中, 在原有动作的基础 上针对每一 维度都施加一个服从正态分布的扰动值, 并将施加扰动后的动作值限定在规定 范围之内, 见式(3), 式中, a'(s')为状态s'下的动作值, 为动作网络输出值, ε为正态分布扰动值, σ 为正态分布方差, ‑c和c分别为正态分布扰动值的上、 下限, aLow和aHigh分别为动作值上、 下 限; 4)多经验池概率回放: ME ‑TD3算法根据样本对网络训练的影响程度对其进行分类, 将 经验池一分为二, 经验池1存放优质样本, 经验池2存放一般样本, 优质样本取到的概率高, 一般样本取到的概 率低, 具体步骤为: ①首先初始化PSAT仿真环境和ME ‑TD3算法中的动作网络、 评价网络1以及评价网络2的 权重参数θμ、 θμ′、 以及探索方差σ, 对于每个回合, 都给出一组符合校核 参数范围要求的参数初值s; ②将参数初值s输入到ME ‑TD3算法中的动作网络中, 通过施加探索方差σ 得到参数的一 组校核策略a, 通过校核 策略求出调整后的参数s ′, 将调整后的参数s ′与仿真环境PSAT进 行 交互, 求出有功功 率、 机端电压的仿 真轨迹与实测轨迹的偏差值, 即回报函数值r, 以及仿 真 轨迹是否发散的标志位done, 将调整 前后的参数s和s ′, 以及校核策略a、 回报函数值r、 仿 真 轨迹是否发散的标志位done作为一条经验根据回报函数来决定这条经验存入经验池1, 还 是经验池2中, 当经验池1容量不 足一半时, 回报函数值r大于 ‑1的经验存入 经验池1中, 其他权 利 要 求 书 1/2 页 2 CN 113032934 B 3

.PDF文档 专利 基于ME-TD3算法的风电场动态参数智能校核方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于ME-TD3算法的风电场动态参数智能校核方法 第 1 页 专利 基于ME-TD3算法的风电场动态参数智能校核方法 第 2 页 专利 基于ME-TD3算法的风电场动态参数智能校核方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:22:41上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。