专利一种基于人机协同结合逆强化学习的电网调控方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221072146 0.8 (22)申请日 2022.06.24 (71)申请人国网天津市电力公司电力科学研究院地址 300384 天津市滨海新区海泰华科四路8号申请人国网天津市电力公司　国家电网有限公司 (72)发明人李振斌　郭凌旭　韩强　尚学军　黄志刚　陈建　宋永贞　米未民　马世乾　于光耀　刘颂　李丛林　王伟力　崇志强　单连飞　王天昊　 (74)专利代理机构天津盛理知识产权代理有限公司 12209 专利代理师王来佳(51)Int.Cl. G06F 16/36(2019.01) (54)发明名称一种基于人机协同结合逆强化学习的电网调控方法 (57)摘要本发明涉及一种基于人机协同结合逆强化学习的电网调控方法，包括以下步骤：步骤1、输入电网的数据集；步骤2、构建电网设备节点状态和调控行为的知识图谱；步骤3、获得设备节点状态和调控动作的Embedding；步骤4、根据当前状态到目标状态的情况定义出多跳评分函数；步骤 5、利用人工专家的先验知识构建基于状态的调控元路径；步骤6、产生强化学习的第一部分奖励函数；步骤7、生成总的奖励函数；步骤8、定义逆强化学习的马尔可夫过程和基于actor ‑critic 的逆强化学习策略更新框架；步骤9、训练产生基于人机协同结合逆强化学习的电网调控策略。本发明能够提升电网调控线上线下决策的准确率。权利要求书4页说明书12页附图2页 CN 115309908 A 2022.11.08 CN 115309908 A 1.一种基于人机协同结合逆强化学习的电网调控方法，其特征在于：包括以下步骤：步骤1、输入电网的数据集；步骤2、利用电网调控的先验知识结合离线电网历史数据集中的电网设备实体状态和相应的调控动作构建出包含数据集中电网设备节点状态和调控行为的知识图谱；步骤3、利用步骤2中构建的知识图谱以及电网数据集中各个设备实体状态转换的关系对步骤1中的电网数据集中设备节点，调控动作进行图表示学习，最终获得设备节点状态和调控动作的Embed ding；步骤4、选取步骤2中构建的知识图谱，根据当前状态到目标状态的情况定义出多跳评分函数，用于评估两个状态之间的相关性，评分由设备节点状态的Embedding作为评分函数的输入计算得到；步骤5、基于步骤4定义完成的多跳评分函数，利用人工专家的先验知识构建基于状态的调控元路径；步骤6、将步骤5 中得到的基于状态进行调控动作的元路径作为强化学习决策过程中的先验指导，生成调控动作选择约束，产生源状态到目标状态的路径，使用评分函数来计算路径中节点多跳的得分评估，产生强化学习的第一部分奖励函数；步骤7、基于步骤2和步骤3分别获得离线历史数据约束和在线人机交互约束下的双监督奖励函数，结合从步骤6中得到第一部分奖励函数生成总的奖励函数；步骤8、在步骤7中获得的奖励函数基础上，定义逆强化学习的马尔可夫过程和基于 actor‑critic的逆强化学习策略更新框架；步骤9、训练产生基于人机协同结合逆强化学习的电网调控策略。 2.根据权利要求1所述的一种基于人机协同结合逆强化学习的电网调控方法，其特征在于：所述步骤2的具体步骤包括： (1)获得每个电网设备节点初始状态下的调控动作记录； (2)将每个电网设备节点的状态作为知识图谱中的一个实体节点，将针对每个电网设备节点状态做出的调控动作作为实体节点间的关联边； (3)对整个电网数据集中的电网设备节点状态依据调控动作对应的边进行关联，最终构成一张包含数据集中电网设备节点状态和调控动作的知识图谱。 3.根据权利要求1所述的一种基于人机协同结合逆强化学习的电网调控方法，其特征在于：所述步骤3利用步骤2中构建的知识图谱以及电网数据集中各个设备实体状态转换关系对步骤1中的电网数据集包含的设备节点，调控动作进行图表示学习的具体步骤包括： (1)根据电网设备节点状态，定义出每个电网设备节点状态所对应的实体类，实体类的个数定义为n；同时定义强化学习中每个状态输入的维度大小为embed_size； (2)根据每个实体类中包含的对应电网设备节点状态个数m，来对实体类进行表示学习初始化，初始化向量的维度即为m*embed_size； (3)根据电网数据集中的设备节点信息，对其进行初始化，初始化向量的维度即为 embed_size； (4)定义故障处置动作的初始化向量维度为1*embed_size；依据相关状态下调控数据集，从中获取对应的记录，该记录中包含n个实体类对应的实例记录，作为一个n元组；基于n元组，从中生成对应存在关系的(状态i，调控动作r，状态j)权　利　要　求　书 1/4 页 2 CN 115309908 A 2的三元组，这类三元组的个数记作k，将这k个三元组作为成熟的图表示学习算法TransR的输入，共同进行损失训练，获得能对当前节点状态和调控动作进行Emb edding的表示模型；使用该模型获得节点和调控动作的Embed ding表示。 4.根据权利要求1所述的一种基于人机协同结合逆强化学习的电网调控方法，其特征在于：所述步骤4中选取步骤2中构建的知识图谱，根据当前状态到目标状态的情况定义出多跳评分函数的具体步骤包括： (1)首先定义多跳路径中的实体，路径的首位实体定义为e0,结尾实体定义为et,基于知识图谱，如果e0和et中间存在一系列的实体诸如{e0,e1,...,et‑1},和它们之间的t个关系即{r1,r2,...,rt},那么我们就可以基于知识图谱定义出一个确定的有效多跳路径 (2)完成了多跳路径的定义之后，需要定义出多跳路径的评分函数，针对多跳路径中的两个实体e0和et，评分函数可定义为：其中j表示多跳路径中任意一个实体节点的下标， bet是这里设置的偏置值；当t＝0且j ＝0的时候，该评分函数表示的两个实体向量之间的相似度，即：当t＝1且j＝1的时候，该评分函数表示的是头实体加关系后和尾实体之间的相似度，即：基于以上，完成基于知识图谱的多跳评分函数的定义，用于评估两个状态之间的相关性。 5.根据权利要求1所述的一种基于人机协同结合逆强化学习的电网调控方法，其特征在于：所述步骤5的具体步骤包括： (1)依据知识图谱中包含的电网设备节点状态类型和调控动作类型生成一系列的三元组； (2)依据人工专家的先验知识，对这些存在关系的三元组进行关联，最终抽象出多条具有先验指导意义的元路径，可以有效地指导强化学习智能体在对应状态下进行调控动作选择。 6.根据权利要求1所述的一种基于人机协同结合逆强化学习的电网调控方法，其特征在于：所述步骤6的具体步骤包括： (1)依据专家先验知识定义好多条元路径； (2)在强化学习中智能体的路径探索尝试过程中，依据定义好的元路径来指导当前电力设备状态进行调控动作选择，使得设备转移到下一个状态，依次类推直到周期结束，最终生成从电力设备源状态到目标状态的状态转移路径； (3)通过定义好的多跳评分函数对源状态和目标状态进行相关性计算，获得强化学习权　利　要　求　书 2/4 页 3 CN 115309908 A 3

专利 一种基于人机协同结合逆强化学习的电网调控方法

专利一种基于人机协同结合逆强化学习的电网调控方法