专利一种基于改进深度强化学习的综合能源系统能量管理方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210965022.6 (22)申请日 2022.08.12 (71)申请人中国科学院电工研究所地址 100190 北京市海淀区中关村北二条6 号 (72)发明人肖浩　浦骁威　裴玮　马腾飞　马丽　彭大健　 (74)专利代理机构北京科迪生专利代理有限责任公司 1 1251 专利代理师江亚平 (51)Int.Cl. G06Q 50/06(2012.01) G06Q 30/02(2012.01) G06N 3/04(2006.01) G06F 30/27(2020.01) (54)发明名称一种基于改进深度强化学习的综合能源系统能量管理方法 (57)摘要本发明提供一种基于改进深度强化学习的综合能源系统能量管理方法，包括： 1)基于综合能源系统的历史运行数据，采用长短时记忆神经网络搭建各综合能源系统等值封装模型； 2)构建各综合能源系统能量管理策略学习训练所需的强化学习环境； 3)采用k优先采样策略代替ε贪心策略改进深度强化学习算法，并基于改进深度强化学习算法对各综合能源系统能量管理策略在线学习。本发明通过长短时记忆神经网络的等值建模简化了多综合能源系统互动时的复杂迭代过程，降低了能量管理方案求解难度，同时改进的深度强化学习算法能够在大规模动作空间的探索中减少对低奖励值动作的访问频次，具有更好的收敛性与稳定性。权利要求书4页说明书10页附图2页 CN 115409645 A 2022.11.29 CN 115409645 A 1.一种基于改进深度强化学习的综合能源系统能量管理方法，其特征在于，包括以下步骤：步骤(1)：基于综合能源系统的历史运行数据，采用长短时记忆神经网络搭建综合能源系统等值封装模型；步骤(2)：构建各综合能源系统能量管理策略学习训练所需的强化学习环境；步骤(3)：采用k优先采样策略，并基于改进深度强化学习算法对各综合能源系统能量管理策略在线学习。 2.如权利要求1所述的一种基于改进深度强化学习的综合能源系统能量管理方法，其特征在于，所述步骤(1)具体包括如下步骤：步骤(1‑1)选取长短时记忆神经网络模型的输入变量和输出变量：所述综合能源系统的历史运行数据包括风电机组、光伏机组的不可控型分布式可再生发电机组的出力，包括微燃机、燃料电池的可控型分布式发电机组的出力，电负荷，热负荷，电能交易价格，热能交易价格，电能交易额以及热能交易额；输出变量选择综合能源系统的电能交易额和热能交易额，其余变量作为输入变量；步骤(1‑2)进行数据处理，统计各个综合能源系统的历史运行数据，对其进行数据标幺化、训练集与测试集的划分；式中， D表示历史运行数据组成的数据集； X表示一组所有变量构成的列向量， d表示第d 天， M表示总共的天数； t表示一天中的第t个时段， N通常为24，表示一天24个时段； Du表示标幺化后的历史数据； min( ·)表示取最小值函数， max( ·)表示取最大值函数；表示标幺化后从历史数据中取出的训练集，表示标幺化后从历史数据中取出的测试集， ε表示训练集占总数据集的比例；步骤(1‑3)训练长短时记忆神经网络模型：采用长短期记忆神经网络，基于反向传播的小批量梯度下降法对训练集数据进行学习训练：式中， xt代表第t个时段从训练数据集中取出的数据集合； ht‑1代表第t个时段之前累积；权　利　要　求　书 1/4 页 2 CN 115409645 A 2ft代表当前迭代第t个时段对应的遗忘门输出， wf和bf为遗忘层中各神经元的权值系数和偏置系数， σ( ·)代表s型曲线函数， it代表第t个时段输入层的输出， wi和bi为输入层中各神经元的权值系数和偏置系数，代表第t个时段卷积层的预估输出， wc和bc为卷积层中各神经元的权值系数和偏置系数， tanh( ·)代表双曲正切函数， ct代表当第t个时段卷积层的实际输出， ot代表第t个时段输出层输出， wo和bo为输出层中各神经元的权值系数和偏置系数， ht 代表当第t个时段实际输出；步骤(1‑4)进行长短时记忆神经网络模型效果评估：使用测试集对长短时记忆神经网络模型进行测试，采用均方根误差进行效果评估；式中， RMSE表示模型预测值与真实值的均方根误差， xtest表示测试集中网络的输入变量， ytest表示测试集中网络的输出变量， net 表示训练好的网络函数。 3.如权利要求2所述的一种基于改进深度强化学习的综合能源系统能量管理方法，其特征在于，所述步骤(2)中具体包括如下步骤：步骤(2‑1)设定状态空间：将每个综合能源系统的控制中心视作一个智能体，所述智能体可观测到的状态空间为： S＝SC×SX×ST 式中， SC代表可控观测量， SX代表不可控观测量， ST代表时序信息观测量；可控观测量包括综合能源系统内部分布式储储能状态量SoCt， TCL负荷的状态量S oTt以及市场价格水平Ct，可观测量如下式所示： SC＝[SoCt,SoTt,Cb t] 不可控观测量包括温度Tt，分布式能源提供的电能Gt，分布式能源提供的热能Ht，与不同综合能源系统的能源交易价格以及电负荷与热负荷不可观测量如下式所示：时序信息观测量包括当前天数td，当前小时th，如下式所示： ST＝[td,th] 步骤(2‑2)设定动作空间：所述智能体的动作空间为一个10维的离散空间，该动作空间A包括对电能的控制Ae以及对热能的控制Ah，如下式所示： A＝Ae×Ah 对电能的控制动作为： Ae＝[atcl,al,ac,aG,ap,as] 式中， atcl为TCL负荷的控制信号， al为价格响应型电负荷的控制信息， ac为分布式储能罐的充放电控制信号， aG为燃气轮机的发电功率控制信号， ap为电能交易价格控制信号， as 为电能交易顺序控制信号；对热能的控制动作为： Ah＝[ahc,ahG,ahp,ahs]权　利　要　求　书 2/4 页 3 CN 115409645 A 3

专利 一种基于改进深度强化学习的综合能源系统能量管理方法

专利一种基于改进深度强化学习的综合能源系统能量管理方法