专利基于深度强化学习的电网有功频率的调控方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111362738.9 (22)申请日 2021.11.17 (71)申请人国家电网有限公司华东分部地址 200125 上海市浦东新区浦东南路882 号 (72)发明人周良才　周毅　闻旻　吴攀　王澍　徐峰　 (74)专利代理机构上海思微知识产权代理事务所(普通合伙) 31237 代理人田婷 (51)Int.Cl. H02J 3/48(2006.01) H02J 3/24(2006.01) G06F 30/27(2020.01) G06Q 50/06(2012.01)G06F 113/04(2020.01) (54)发明名称基于深度强化学习的电网有功频率的调控方法 (57)摘要本发明一种基于深度强化学习的电网有功频率的调控方法，包括：获取电网的有功频率的偏差；获取用于智能体训练的样本；建立智能体；将样本输入智能体进行训练，训练方法包括：智能体在每个时间段输出一次控制策略，电网仿真器验证控制策略的消除有功频率的偏差能力并根据偏差能力返回奖励值，智能体从所有奖励值中选出最高的奖励值，其对应的控制策略为样本的电网有功频率的调控方法。本发明提高了有功偏差恢复的精度，全程由智能体和电网仿真器通过程序进行，提高了恢复的效率。权利要求书1页说明书9页附图4页 CN 113964884 A 2022.01.21 CN 113964884 A 1.一种基于深度强化学习的电网有功频率的调控方法，其特征在于，包括：获取电网的有功频率的偏差；获取用于智能体训练的样本；建立智能体；以及将所述样本输入所述智能体进行训练，训练方法包括：所述智能体在时间段每个时间段输出一次控制策略，电网仿真器验证所述控制策略的消除有功频率的偏差能力并根据所述偏差能力返回奖励值，所述智能体时间段从所有所述奖励值中选出最高的奖励值，其对应的控制策略为所述样本的电网有功频率的调控方法。 2.如权利要求1所述的电网有功频率的调控方法，其特征在于，所述样本包括断面数据。 3.如权利要求1所述的电网有功频率的调控方法，其特征在于，所述样本为多个，每个所述样本均输入所述智能体进行训练，每个所述样本均获得一个控制策略。 4.如权利要求3所述的电网有功频率的调控方法，其特征在于，所有样本完成智能体训练后，所述智能体达到稳定状态。 5.如权利要求3所述的电网有功频率的调控方法，其特征在于，训练方法包括：输入样本，获取样本中的t时间段的断面数据，通过断面数据中包含的系统状态特征判断有功频率是否在规定范围内，如果不在规定内就计算t时间段的控制策略；电网仿真器执行所述控制策略，并获取t+1时间段的系统状态， t时间段的奖励值， t时间段的成本值和t时间段的结束信号；将t时间段的系统状态、 t时间段的控制策略、 t时间段的奖励值、 t +1时间段的系统状态和t时间段的结束信号作为数组存放于缓存区；进行t+1时间段的系统状态判断，并计算控制策略；如果计算的次数达到设定值，则从所述缓存区采样多个数组并更新智能体的参数和拉格朗日乘子，如果计算的次数没有达到设定值，则继续求取下一个时间段的控制策略。 6.如权利要求5所述的电网有功频率的调控方法，其特征在于，在输入样本之前，还包括：初始化所述智能体的参数、初始化拉格朗日乘数、初始化权重和初始化缓存。 7.如权利要求6所述的电网有功频率的调控方法，其特征在于，所述智能体的参数包括：策略网络参数、状态值函数、网络参数、动作值函数和网络参数。 8.如权利要求1所述的电网有功频率的调控方法，其特征在于，所述控制策略包括发电机出力调节和切负荷。 9.如权利要求1所述的电网有功频率的调控方法，其特征在于，建立所述智能体采用的约束为马尔可夫决策过程。 10.如权利要求1所述的电网有功频率的调控方法，其特征在于，建立所述智能体的算法为SAAC算法。权　利　要　求　书 1/1 页 2 CN 113964884 A 2基于深度强化学习的电网有功频率的调控方法技术领域 [0001]本发明涉及电网技术领域，尤其是涉及一种基于深度强化学习的电网有功频率的调控方法。背景技术 [0002]近年来，区外直流来电、新能源和有源化负荷比例的不断增大给电网频率的调控带来了挑战。电网扰动包括系统转动惯量持续降低，断面潮流窜动变大和频率波动率不断增大。目前，采用的第一种方法是，采用以动态区域控制偏差系统为代表的动态频率控制体系，当电网发生扰动时，各区域按照预设的比例分摊功率缺额，以实现频率的快速恢复，实践中，采用预设的分摊比例常造成断面潮流越限或造成生产成本过大的问题。第二种方法是，基于日前离线分析和灵敏度计算的调控方法，但是此方法的速度和精度不够，并且操作过程需要进行迭代不够精简。发明内容 [0003]本发明的目的在于提供一种基于深度强化学习的电网有功频率的调控方法，在电网出现波动时，可以快速恢复有功频率，并且可以提高恢复的精度。 [0004]为了达到上述目的，本发明提供了一种基于深度强化学习的电网有功频率的调控方法，包括： [0005]获取电网的有功频率的偏差； [0006]获取用于智能体训练的样本； [0007]建立智能体；以及 [0008]将所述样本输入所述智能体进行训练，训练方法包括：所述智能体在每个时间段输出一次控制策略，电网仿真器验证所述控制策略的消除有功频率的偏差能力并根据所述偏差能力返回奖励值，所述智能体从所有所述奖励值中选出最高的奖励值，其对应的控制策略为所述样本的电网有功频率的调控方法。 [0009]可选的，在所述的电网有功频率的调控方法中，所述样本包括断面数据。 [0010]可选的，在所述的电网有功频率的调控方法中，所述样本为多个，每个所述样本均输入所述智能体进行训练，每个所述样本均获得一个控制策略。 [0011]可选的，在所述的电网有功频率的调控方法中，所有样本完成智能体训练后，所述智能体达到稳定状态。 [0012]可选的，在所述的电网有功频率的调控方法中，训练方法包括： [0013]输入样本，获取样本中的t时间段的断面数据，通过断面数据中包含的系统状态特征判断有功频率是否在规定范围内，如果不在规定内就计算t时间段的控制策略； [0014]电网仿真器执行所述控制策略，并获取t+1 时间段的系统状态， t时间段的奖励值， t时间段的成本值和t时间段的结束信号； [0015]将t时间段的系统状态、 t时间段的控制策略、 t时间段的奖励值、 t+1 时间段的系统说　明　书 1/9 页 3 CN 113964884 A 3

专利 基于深度强化学习的电网有功频率的调控方法

专利基于深度强化学习的电网有功频率的调控方法