说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221072146 0.8 (22)申请日 2022.06.24 (71)申请人 国网天津市电力公司电力科 学研究 院 地址 300384 天津市滨 海新区海 泰华科四 路8号 申请人 国网天津市电力公司   国家电网有限公司 (72)发明人 李振斌 郭凌旭 韩强 尚学军  黄志刚 陈建 宋永贞 米未民  马世乾 于光耀 刘颂 李丛林  王伟力 崇志强 单连飞 王天昊  (74)专利代理 机构 天津盛理知识产权代理有限 公司 12209 专利代理师 王来佳(51)Int.Cl. G06F 16/36(2019.01) (54)发明名称 一种基于人机协同结合逆强化学习的电网 调控方法 (57)摘要 本发明涉及一种基于人机协同结合逆强化 学习的电网调控方法, 包括以下步骤: 步骤1、 输 入电网的数据集; 步骤2、 构建电网设备节 点状态 和调控行为的知 识图谱; 步骤3、 获得设备节点状 态和调控动作的Embedding; 步骤4、 根据当前状 态到目标状态的情况定义出多跳评分函数; 步骤 5、 利用人工专家的先验知识构建基于状态的调 控元路径; 步骤6、 产生强化学习的第一部分奖励 函数; 步骤7、 生成总的奖励函数; 步骤8、 定义逆 强化学习的马尔可夫过程和基于actor ‑critic 的逆强化学习策略更新框架; 步骤9、 训练产生基 于人机协同结合逆强化学习的电网调控策略。 本 发明能够提升电网调控 线上线下决策的准确率。 权利要求书4页 说明书12页 附图2页 CN 115309908 A 2022.11.08 CN 115309908 A 1.一种基于人机协同结合逆强化学习的电网调控方法, 其特 征在于: 包括以下步骤: 步骤1、 输入电网的数据集; 步骤2、 利用电网调控的先验知识结合离线电网历史数据集中的 电网设备实体状态和 相应的调控动作构建出包 含数据集中电网设备节点状态和调控行为的知识图谱; 步骤3、 利用步骤2中构建的知识图谱以及电网数据集中各个设备实体状态转换的关系 对步骤1中的电网数据集中设备节点, 调控动作进 行图表示学习, 最 终获得设备节点状态和 调控动作的Embed ding; 步骤4、 选取步骤2中构建的知识图谱, 根据当前状态到目标状态 的情况定义出多跳评 分函数, 用于评估两个状态之间的相关性, 评分由设备节 点状态的Embedding作为评分函数 的输入计算得到; 步骤5、 基于步骤4定义完成的多跳评分函数, 利用人工专家的先验知识构建基于状态 的调控元路径; 步骤6、 将步骤5 中得到的基于状态进行调控动作的元路径作为强化学习决策过程中的 先验指导, 生成调控动作选择约束, 产生源状态到目标状态的路径, 使用评 分函数来计算路 径中节点多跳的得分评估, 产生强化学习的第一部分奖励函数; 步骤7、 基于步骤2和步骤3分别获得离线历史数据约束和在线人机交互约束下的双监 督奖励函数, 结合从步骤6中得到第一部分奖励函数生成总的奖励函数; 步骤8、 在步骤7中获得的奖励函数基础上, 定义逆强化学习的马尔可夫过程和基于 actor‑critic的逆强化学习策略更新框架; 步骤9、 训练产生基于人机协同结合逆强化学习的电网调控策略。 2.根据权利要求1所述的一种基于人机协同结合逆强化学习的电网调控方法, 其特征 在于: 所述 步骤2的具体步骤 包括: (1)获得每 个电网设备节点初始状态下的调控动作记录; (2)将每个电网设备节点的状态作为知识图谱中的一个实体节点, 将针对每个电网设 备节点状态 做出的调控动作 作为实体节点间的关联边; (3)对整个电网数据集中的电网设备节点状态依据调控动作对应的边进行关联, 最终 构成一张包 含数据集中电网设备节点状态和调控动作的知识图谱。 3.根据权利要求1所述的一种基于人机协同结合逆强化学习的电网调控方法, 其特征 在于: 所述步骤3利用步骤2中构建的知识图谱以及电网数据集中各个 设备实体状态转换关 系对步骤1中的电网数据集包 含的设备节点, 调控动作进行图表示学习的具体步骤 包括: (1)根据电网设备节点状态, 定义出每个电网设备节点状态所对应的实体类, 实体类的 个数定义 为n; 同时定义强化学习中每 个状态输入的维度大小为embed_size; (2)根据每个实体类 中包含的对应电网设备节点状态个数m, 来对实体类进行表示学习 初始化, 初始化向量的维度即为m*embed_size; (3)根据电网数据集中的设备节点信息, 对其进行初始化, 初始化向量的维度即为 embed_size; (4)定义故障处置动作的初始化向量维度为1*embed_size; 依据相关状态下调控数据集, 从中获取对应的记录, 该记录 中包含n个实体类对应的实 例记录, 作为一个n元组; 基于n元组, 从中生成对应存在关系的(状态i, 调控动作r, 状态j)权 利 要 求 书 1/4 页 2 CN 115309908 A 2的三元组, 这类三元组的个数记作k, 将这k个三元组作为成熟的图表示学习 算法TransR的 输入, 共同进行损失训练, 获得能对当前节点状态和调控动作进行Emb edding的表示模型; 使用该模型获得节点和调控动作的Embed ding表示。 4.根据权利要求1所述的一种基于人机协同结合逆强化学习的电网调控方法, 其特征 在于: 所述步骤4中选取步骤2中构建的知识图谱, 根据当前状态到目标状态的情况定义出 多跳评分函数的具体步骤 包括: (1)首先定义多跳路径中的实体, 路径的首位实体定义为e0,结尾实体定义为et,基于知 识图谱, 如果e0和et中间存在一系列的实体诸如{e0,e1,...,et‑1},和它们之间的t个关系 即{r1,r2,...,rt},那么我们就可以基于知识图谱定义出一个确定的有效多跳路径 (2)完成了多跳路径的定义之后, 需要定义出多跳路径的评分函数, 针对多跳路径中的 两个实体e0和et, 评分函数 可定义为: 其中j表示多跳路径中任意一个实体节点的下标, bet是这里设置的偏置值; 当t=0且j =0的时候, 该评分函数表示的两个实体向量之间的相似度, 即: 当t=1且j=1的时候, 该评分函数表示的是头实体加关系后和尾实体之间的相似度, 即: 基于以上, 完成基于知识图谱的多跳评分函数的定义, 用于评估两个状态之间的相关 性。 5.根据权利要求1所述的一种基于人机协同结合逆强化学习的电网调控方法, 其特征 在于: 所述 步骤5的具体步骤 包括: (1)依据知识图谱中包含的电网设备节点状态类型和调控动作类型生成一系列的三元 组; (2)依据人工专家的先验知识, 对这些存在关系的三元组进行关联, 最终抽象出多条具 有先验指导意义的元路径, 可以有效地指导 强化学习智能体在 对应状态下进 行调控动作选 择。 6.根据权利要求1所述的一种基于人机协同结合逆强化学习的电网调控方法, 其特征 在于: 所述 步骤6的具体步骤 包括: (1)依据专 家先验知识定义 好多条元路径; (2)在强化学习中智能体的路径探索尝试过程中, 依据定义好的元路径来指导当前电 力设备状态进 行调控动作选择, 使得设备转移到下一个状态, 依次类推直到周期结束, 最 终 生成从电力设备源状态到目标状态的状态转移路径; (3)通过定义好的多跳评分函数对源状态和目标状态进行相关性计算, 获得强化学习权 利 要 求 书 2/4 页 3 CN 115309908 A 3

.PDF文档 专利 一种基于人机协同结合逆强化学习的电网调控方法

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于人机协同结合逆强化学习的电网调控方法 第 1 页 专利 一种基于人机协同结合逆强化学习的电网调控方法 第 2 页 专利 一种基于人机协同结合逆强化学习的电网调控方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:52:46上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。