专利基于深度强化学习的电网拓扑优化和潮流控制的方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111362751.4 (22)申请日 2021.11.17 (71)申请人国家电网有限公司华东分部地址 200125 上海市浦东新区浦东南路882 号 (72)发明人周毅　周良才　丁佳立　何红玉　高佳宁　 (74)专利代理机构上海思微知识产权代理事务所(普通合伙) 31237 代理人田婷 (51)Int.Cl. G06F 30/18(2020.01) G06F 30/27(2020.01) G06N 3/08(2006.01) G06Q 50/06(2012.01) (54)发明名称基于深度强化学习的电网拓扑优化和潮流控制的方法 (57)摘要本发明提供了一种基于深度强化学习的电网拓扑优化和潮流控制的方法，包括：构建智能体；获取历史断面潮流数据，并对多历史断面潮流数据进行模仿学习，以确定智能体的参数的初始值；对t时刻的在线断面潮流数据进行训练，得到N个动作价值排在前列的控制策略；在电网环境仿真器中验证N个价值排在前列的控制策略，获得回报最高的控制策略；执行回报最高的控制策略，得到执行该控制策略的奖励值； t的取值加 1；循环求奖励值的步骤，每求得M次奖励值，根据动作价值函数的目标值更新智能体参数，完成所有时刻的在线断面潮流数据的智能体训练，从中选出最优的智能体参数；使用训练好的智能体在实时环境下完成电网拓扑优化和潮流控制。权利要求书2页说明书6页附图1页 CN 114065452 A 2022.02.18 CN 114065452 A 1.一种基于深度强化学习的电网拓扑优化和潮流控制方法，其特征在于，包括： S1：构建智能体； S2：获取电网的多个历史断面潮流数据，并对多个历史断面潮流数据进行模仿学习，以确定所述智能体的参数的初始值； S3：获取用于所述智能体训练的样本，并将所述样本输入所述智能体，所述样本包括多个时刻的在线断面潮流数据； S4：对t时刻的所述在线断面潮流数据进行训练，得到多个电网拓扑优化的控制策略，并按动作价值的大小从大到小排列，获取N个动作价值排在前列的控制策略，其中， N为正整数； S5：在电网环境仿真器中验证所述N个动作价值排在前列的控制策略，以获得回报最高的控制策略； S6：电网环境仿真器执行所述回报最高的控制策略并获取t时刻的奖励值、 t时刻的结束标志和t+1时刻的系统状态； S7：将t时刻的系统状态、 t时刻回报最高的控制策略、 t时刻的奖励值、 t+1时刻的系统状态和t时刻的结束标志作为数组存储到缓冲区中， t时刻的结束标志为真的数组存储次数越多； S8：从缓冲区中随机采样多个数组，对采样得到的奖励值计算动作价值函数的目标值； S9： t的取值加1； S10：循环步骤S6～步骤S9，其中，每求得M次奖励值后，根据所述动作价值函数的目标值更新智能体参数， M为设定的正整数，完成所有时刻的在线断面潮流数据的智能体训练，从中选出最优的智能体参数； S11：使用具有最优的智能体参数的智能体在实时环境下完成电网拓扑优化和潮流控制，以得到电网拓扑优化和潮流控制的方法。 2.如权利要求1所述的电网拓扑优化和潮流控制的方法，其特征在于，所述智能体为竞争深度Q网络训练得到的神经网络模型。 3.如权利要求1所述的电网拓扑优化和潮流控制的方法，其特征在于，所述样本的个数为多个，每个所述样本均包括多个时刻的在线断面潮流数据，每个所述样本均输入所述智能体进行训练。 4.如权利要求1所述的电网拓扑优化和潮流控制的方法，其特征在于， N的值为10。 5.如权利要求1所述的电网拓扑优化和潮流控制的方法，其特征在于，所述数组的形式为<st， at， rt， st+1， dt>，其中， st为t时刻的系统状态， at为t时刻的系统状态， rt为t时刻的奖励值， st+1为t+1时刻的系统状态， dt为t时刻的结束标志。 6.如权利要求5所述的电网拓扑优化和潮流控制的方法，其特征在于， t的初始值为1，并且t为正整数。 7.如权利要求1所述的电网拓扑优化和潮流控制的方法，其特征在于，所述智能体的参数包括：所述智能体中的网络神经元之间的权重和连接关系。 8.如权利要求1所述的电网拓扑优化和潮流控制的方法，其特征在于，获取用于所述智能体训练的样本的方法包括：获取多个在线断面潮流数据；权　利　要　求　书 1/2 页 2 CN 114065452 A 2判断所述在线断面潮流数据是否越限；如果断面潮流数据越限，则此在线断面潮流数据作为样本。 9.如权利要求8所述的电网拓扑优化和潮流控制的方法，其特征在于，判断断面潮流数据越限的方法包括：判断所述断面潮流数据是否大于设定值，如果大于设定值，则认为断面潮流数据越限。 10.如权利要求1所述的电网拓扑优化和潮流控制的方法，其特征在于，所述控制策略包括：改变电网拓扑结构。权　利　要　求　书 2/2 页 3 CN 114065452 A 3

专利 基于深度强化学习的电网拓扑优化和潮流控制的方法

专利基于深度强化学习的电网拓扑优化和潮流控制的方法