说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111362738.9 (22)申请日 2021.11.17 (71)申请人 国家电网有限公司华 东分部 地址 200125 上海市浦东 新区浦东 南路882 号 (72)发明人 周良才 周毅 闻旻 吴攀 王澍  徐峰  (74)专利代理 机构 上海思微知识产权代理事务 所(普通合伙) 31237 代理人 田婷 (51)Int.Cl. H02J 3/48(2006.01) H02J 3/24(2006.01) G06F 30/27(2020.01) G06Q 50/06(2012.01)G06F 113/04(2020.01) (54)发明名称 基于深度强化学习的电网有功频率的调控 方法 (57)摘要 本发明一种基于深度强化学习的电网有功 频率的调控方法, 包括: 获取电网的有功频率的 偏差; 获取用于智能体训练的样本; 建立智能体; 将样本输入智能体进行训练, 训练方法包括: 智 能体在每个时间段输出一次控制策略, 电网仿真 器验证控制策略的消除有功频率的偏差能力并 根据偏差能力返回奖励值, 智能体从所有奖励值 中选出最高的奖励值, 其对应的控制策略为样本 的电网有功频率的调控 方法。 本发 明提高了有功 偏差恢复的精度, 全程由智能体和电网仿真器通 过程序进行, 提高了恢复的效率。 权利要求书1页 说明书9页 附图4页 CN 113964884 A 2022.01.21 CN 113964884 A 1.一种基于深度强化学习的电网有功频率的调控方法, 其特 征在于, 包括: 获取电网的有功频率的偏差; 获取用于智能体训练的样本; 建立智能体; 以及 将所述样本输入所述智能体进行训练, 训练方法包括: 所述智能体在时间段每个时间 段输出一次控制策略, 电网仿 真器验证所述控制策略的消除有功频率的偏差能力并根据所 述偏差能力返回奖励值, 所述智能体时间段从所有所述奖励值中选出最高的奖励值, 其对 应的控制策略为所述样本的电网有功频率的调控方法。 2.如权利要求1所述的电网有功频率的调控方法, 其特征在于, 所述样本包括断面数 据。 3.如权利要求1所述的电网有功频率的调控方法, 其特征在于, 所述样本为多个, 每个 所述样本均输入所述智能体进行训练, 每 个所述样本均获得一个控制策略。 4.如权利要求3所述的电网有功频率的调控方法, 其特征在于, 所有样本完成智能体训 练后, 所述智能体达 到稳定状态。 5.如权利要求3所述的电网有功频率的调控方法, 其特 征在于, 训练方法包括: 输入样本, 获取样本 中的t时间段的断面数据, 通过断面数据中包含的系统状态特征判 断有功频率是否在规定范围内, 如果 不在规定内就计算t时间段的控制策略; 电网仿真器执行所述控制策略, 并获取t+1时间段的系 统状态, t时间段的奖励值, t时 间段的成本值和t时间段的结束信号; 将t时间段的系统状态、 t时间段的控制策略、 t时间段的奖励值、 t +1时间段的系统状态 和t时间段的结束信号作为数组存放于缓存区; 进行t+1时间段的系统状态判断, 并计算控制策略; 如果计算的次数达到设定值, 则从所述缓存区采样多个数组并更新智能体的参数和拉 格朗日乘子, 如果计算的次数没有达 到设定值, 则继续 求取下一个时间段的控制策略。 6.如权利要求5所述的电网有功频率的调控方法, 其特征在于, 在输入样本之前, 还包 括: 初始化所述智能体的参数、 初始化拉格朗日乘数、 初始化权 重和初始化缓存。 7.如权利要求6所述的电网有功频率的调控方法, 其特征在于, 所述智能体的参数包 括: 策略网络参数、 状态值 函数、 网络参数、 动作值 函数和网络参数。 8.如权利要求1所述的电网有功频率的调控方法, 其特征在于, 所述控制策略包括发电 机出力调节和 切负荷。 9.如权利要求1所述的电网有功频率的调控方法, 其特征在于, 建立所述智能体采用的 约束为马尔可 夫决策过程。 10.如权利要求1所述的电网有功频率的调控方法, 其特征在于, 建立所述智能体的算 法为SAAC算法。权 利 要 求 书 1/1 页 2 CN 113964884 A 2基于深度强化学习的电网有功频率的调控方 法 技术领域 [0001]本发明涉及电网技术领域, 尤其是涉及一种基于深度强化学习的电网有功频率的 调控方法。 背景技术 [0002]近年来, 区外直流来电、 新能源和有源化负荷比例的不断增大给电网频率的调控 带来了挑战。 电网扰动包括系统转动惯量持续降低, 断面潮流窜动变大和频率波动率不断 增大。 目前, 采用的第一种方法是, 采用以动态区域控制偏差系统为代表的动态频率控制体 系, 当电网发生扰动时, 各区域按照预设的比例分摊功率缺额, 以实现频率的快速恢复, 实 践中, 采用预设的分摊比例常造成断面潮流越限或造成生产成本过大 的问题。 第二种 方法 是, 基于日前离线分析和灵敏度计算的调控方法, 但是此方法的速度和精度不够, 并且操作 过程需要 进行迭代不够精简。 发明内容 [0003]本发明的目的在于提供一种基于深度强化学习的电网有功频率的调控方法, 在电 网出现波动时, 可以快速恢复有功频率, 并且可以提高恢复的精度。 [0004]为了达到上述目的, 本发明提供了一种基于深度强化学习的电网有功频率的调控 方法, 包括: [0005]获取电网的有功频率的偏差; [0006]获取用于智能体训练的样本; [0007]建立智能体; 以及 [0008]将所述样本输入所述智能体进行训练, 训练方法包括: 所述智能体在每个时间段 输出一次控制策略, 电网仿 真器验证所述控制策略的消除有功频率的偏差能力并根据所述 偏差能力返回奖励值, 所述智能体从所有所述奖励值中选出最高的奖励值, 其对应的控制 策略为所述样本的电网有功频率的调控方法。 [0009]可选的, 在所述的电网有功频率的调控方法中, 所述样本包括断面数据。 [0010]可选的, 在所述的电网有功频率的调控方法中, 所述样本为多个, 每个所述样本均 输入所述智能体进行训练, 每 个所述样本均获得一个控制策略。 [0011]可选的, 在所述的电网有功频率的调控方法中, 所有样本完成智能体训练后, 所述 智能体达 到稳定状态。 [0012]可选的, 在所述的电网有功频率的调控方法中, 训练方法包括: [0013]输入样本, 获取样本中的t时间段的断面数据, 通过断面数据中包含的系统状态特 征判断有功频率是否在规定范围内, 如果 不在规定内就计算t时间段的控制策略; [0014]电网仿真器执行所述控制策略, 并获取t+1 时间段的系统状态, t时间段的奖励值, t时间段的成本值和t时间段的结束信号; [0015]将t时间段的系统状态、 t时间段的控制策略、 t时间段的奖励值、 t+1 时间段的系统说 明 书 1/9 页 3 CN 113964884 A 3

.PDF文档 专利 基于深度强化学习的电网有功频率的调控方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于深度强化学习的电网有功频率的调控方法 第 1 页 专利 基于深度强化学习的电网有功频率的调控方法 第 2 页 专利 基于深度强化学习的电网有功频率的调控方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 05:16:45上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。