说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111362751.4 (22)申请日 2021.11.17 (71)申请人 国家电网有限公司华 东分部 地址 200125 上海市浦东 新区浦东 南路882 号 (72)发明人 周毅 周良才 丁佳立 何红玉  高佳宁  (74)专利代理 机构 上海思微知识产权代理事务 所(普通合伙) 31237 代理人 田婷 (51)Int.Cl. G06F 30/18(2020.01) G06F 30/27(2020.01) G06N 3/08(2006.01) G06Q 50/06(2012.01) (54)发明名称 基于深度强化学习的电网拓扑优化和潮流 控制的方法 (57)摘要 本发明提供了一种基于深度强化学习的电 网拓扑优化和潮流控制的方法, 包括: 构建智能 体; 获取历史断面潮流数据, 并对多历史断面潮 流数据进行模仿学习, 以确定智能体的参数的初 始值; 对t时刻的在线断面潮流数据进行训练, 得 到N个动作价值排在前列的控制策略; 在电网环 境仿真器中验证N个价值排在前列的控制策略, 获得回报最高的控制策略; 执行回报最高的控制 策略, 得到 执行该控制策略的奖励值; t的取值加 1; 循环求奖励值的步骤, 每求得M次奖励值, 根据 动作价值函数的目标值更新智能体参数, 完成所 有时刻的在线断面潮流数据的智能体训练, 从中 选出最优的智能体参数; 使用训练好的智能体在 实时环境下完成电网拓扑优化和潮流控制。 权利要求书2页 说明书6页 附图1页 CN 114065452 A 2022.02.18 CN 114065452 A 1.一种基于深度强化学习的电网拓扑优化和潮流控制方法, 其特 征在于, 包括: S1: 构建智能体; S2: 获取电网的多个历史断面潮流数据, 并对多个历史断面潮流数据进行模仿学习, 以 确定所述智能体的参数的初始值; S3: 获取用于所述智能体训练的样本, 并将所述样本输入所述智能体, 所述样本包括多 个时刻的在线断面潮流数据; S4: 对t时刻的所述在线断面潮流数据进行训练, 得到多个电网拓扑优化的控制策略, 并按动作价值的大小从大到小排列, 获取N个动作价值排在前列的控制策略, 其中, N为正整 数; S5: 在电网环境仿真器 中验证所述N个动作价值排在前列的控制策略, 以获得回报最高 的控制策略; S6: 电网环境仿真器执行所述回报最高的控制策略并获取t时刻的奖励值、 t时刻的结 束标志和t+1时刻的系统状态; S7: 将t时刻的系统状态、 t时刻回报最高的控制 策略、 t时刻的奖励值、 t+1时刻的系统 状态和t时刻的结束标志作为数组存储到缓冲区中, t时刻的结束标志 为真的数组存储次数 越多; S8: 从缓冲区中随机采样多个数组, 对 采样得到的奖励值计算动作价 值函数的目标值; S9: t的取值加1; S10: 循环步骤S6~步骤S9, 其中, 每求得M次奖励值后, 根据所述动作价值函数的目标 值更新智能体参数, M为设定的正整数, 完成所有时刻的在线断面潮流数据的智能体训练, 从中选出最优的智能体参数; S11: 使用具有最优的智能体参数的智能体在实时环境下完成电网拓扑优化和潮流控 制, 以得到电网拓扑优化和潮流控制的方法。 2.如权利要求1所述的电网拓扑优化和潮流控制的方法, 其特征在于, 所述智能体为竞 争深度Q网络训练得到的神经网络模型。 3.如权利要求1所述的电网拓扑优化和潮流控制的方法, 其特征在于, 所述样本的个数 为多个, 每个所述样本均包括多个时刻的在线断面潮流数据, 每个所述样本均输入所述智 能体进行训练。 4.如权利要求1所述的电网拓扑优化和潮流控制的方法, 其特 征在于, N的值 为10。 5.如权利要求1所述的电网拓扑优化和潮流控制的方法, 其特征在于, 所述数组 的形式 为<st, at, rt, st+1, dt>, 其中, st为t时刻的系统状态, at为t时刻的系统状态, rt为t时刻的奖 励值, st+1为t+1时刻的系统状态, dt为t时刻的结束标志。 6.如权利要求5所述的电网拓扑优化和潮流控制的方法, 其特征在于, t的初始值为1, 并且t为正整数。 7.如权利要求1所述的电网拓扑优化和潮流控制的方法, 其特征在于, 所述智能体的参 数包括: 所述智能体中的网络神经 元之间的权 重和连接关系。 8.如权利要求1所述的电网拓扑优化和潮流控制的方法, 其特征在于, 获取用于所述智 能体训练的样本的方法包括: 获取多个在线断面潮流数据;权 利 要 求 书 1/2 页 2 CN 114065452 A 2判断所述在线断面潮流数据是否越限; 如果断面潮流数据越限, 则此在线断面潮流数据作为样本 。 9.如权利要求8所述的电网拓扑优化和潮流控制的方法, 其特征在于, 判断断面潮流数 据越限的方法包括: 判断所述断面潮流数据是否大于设定值, 如果大于设定值, 则认为断面潮流数据越限。 10.如权利要求1所述的电网拓扑优化和潮流控制的方法, 其特征在于, 所述控制策略 包括: 改变电网拓扑 结构。权 利 要 求 书 2/2 页 3 CN 114065452 A 3

.PDF文档 专利 基于深度强化学习的电网拓扑优化和潮流控制的方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于深度强化学习的电网拓扑优化和潮流控制的方法 第 1 页 专利 基于深度强化学习的电网拓扑优化和潮流控制的方法 第 2 页 专利 基于深度强化学习的电网拓扑优化和潮流控制的方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 05:16:44上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。