(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210965022.6
(22)申请日 2022.08.12
(71)申请人 中国科学院电工 研究所
地址 100190 北京市海淀区中关村北二条6
号
(72)发明人 肖浩 浦骁威 裴玮 马腾飞
马丽 彭大健
(74)专利代理 机构 北京科迪生专利代理有限责
任公司 1 1251
专利代理师 江亚平
(51)Int.Cl.
G06Q 50/06(2012.01)
G06Q 30/02(2012.01)
G06N 3/04(2006.01)
G06F 30/27(2020.01)
(54)发明名称
一种基于改进深度强化学习的综合能源系
统能量管理方法
(57)摘要
本发明提供一种基于改进深度强化学习的
综合能源系统能量管理方法, 包括: 1)基于综合
能源系统的历史运行数据, 采用长短时记忆神经
网络搭建各综合能源系统等值封装模型; 2)构建
各综合能源系统能量管理策略学习训练所需的
强化学习环境; 3)采用k优先采样策略代替ε贪
心策略改进深度强化学习算法, 并基于改进深度
强化学习算法对各综合能源系统能量管理策略
在线学习。 本发 明通过长短时记忆神经网络的等
值建模简化了多综合能源系统互动时的复杂迭
代过程, 降低了能量管理方案求解难度, 同时改
进的深度强化学习算法能够在大规模动作空间
的探索中减少对低奖励值动作的访问频次, 具有
更好的收敛性与稳定性。
权利要求书4页 说明书10页 附图2页
CN 115409645 A
2022.11.29
CN 115409645 A
1.一种基于改进深度强化学习的综合能源系统能量管理方法, 其特征在于, 包括以下
步骤:
步骤(1): 基于综合能源系统的历史运行数据, 采用长短时记忆神经网络搭建综合能源
系统等值封装模型;
步骤(2): 构建各综合能源系统能量管理策略学习训练所需的强化学习环境;
步骤(3): 采用k优先采样策略, 并基于改进深度强化学习算法对各综合能源系 统能量
管理策略在线学习。
2.如权利要求1所述的一种基于改进深度强化学习的综合能源系统能量管理方法, 其
特征在于, 所述 步骤(1)具体包括如下步骤:
步骤(1‑1)选取长短时记 忆神经网络模型的输入变量和输出变量:
所述综合 能源系统 的历史运行数据包括风电机组、 光伏机组的不可控型分布式可再生
发电机组的出力, 包括微燃机、 燃料电池的可控 型分布式发电机组的出力, 电负荷, 热负荷,
电能交易价格, 热能交易价格, 电能交易额以及热能交易额; 输出变量选择综合能源系统的
电能交易 额和热能交易 额, 其余变量作为输入变量;
步骤(1‑2)进行数据处理, 统计各个综合能源系统的历史运行数据, 对其进行数据标幺
化、 训练集与测试集的划分;
式中, D表示历史运行数据组成的数据集; X表示一组所有变量构成的列向量, d表示第d
天, M表示总共的天数; t表示一天中的第t个时段, N通常为24, 表示一天24个时段; Du表示标
幺化后的历史数据; min( ·)表示取最小值函数, max( ·)表示取最大值函数;
表示标幺
化后从历史数据中取出的训练集,
表示标幺化后从历史数据中取出的测试集, ε表示训
练集占总数据集的比例;
步骤(1‑3)训练长短时记 忆神经网络模型:
采用长短期记忆神经网络, 基于反向传播的小批量梯度 下降法对训练集数据进行学习
训练:
式中, xt代表第t个时段从训练数据集中取出的数据集合; ht‑1代表第t个时段之前累积;权 利 要 求 书 1/4 页
2
CN 115409645 A
2ft代表当前迭代第t个时段对应的遗忘门输出, wf和bf为遗忘层中各神经元的权值系数和偏
置系数, σ( ·)代表s型曲线函数, it代表第t个时段输入层的输出, wi和bi为输入层中各神经
元的权值系数和偏置系数,
代表第t个时段卷积层的预估输出, wc和bc为卷积层中各神经
元的权值系数和偏置系数, tanh( ·)代表双曲正切函数, ct代表当第t个时段卷积层的实际
输出, ot代表第t个时段输出层输出, wo和bo为输出层中各神经元的权值系数和偏置系数, ht
代表当第t个时段实际输出;
步骤(1‑4)进行长短时记 忆神经网络模型效果评估:
使用测试集对长短时记 忆神经网络模型进行测试, 采用均方根 误差进行效果评估;
式中, RMSE表示模型预测值与真实值的均方根误差, xtest表示测试集中网络的输入变
量, ytest表示测试集中网络的输出变量, net 表示训练好的网络函数。
3.如权利要求2所述的一种基于改进深度强化学习的综合能源系统能量管理方法, 其
特征在于, 所述 步骤(2)中具体包括如下步骤:
步骤(2‑1)设定状态空间:
将每个综合能源系统的控制中心视作一个智能体, 所述智能体可观测到的状态空间
为:
S=SC×SX×ST
式中, SC代表可控观测量, SX代表不可控观测量, ST代表时序信息观测量;
可控观测量包括综合能源系统内部分布式储储能状态量SoCt, TCL负荷的状态量S oTt以
及市场价格水平Ct, 可观测量如下式所示:
SC=[SoCt,SoTt,Cb
t]
不可控观测量包括温度Tt, 分布式能源提供的电能Gt, 分布式能源提供的热能Ht, 与不
同综合能源系统的能源交易 价格
以及电负荷
与热负荷
不可观测量如下式所示:
时序信息观测量包括当前天数td, 当前小时th, 如下式所示:
ST=[td,th]
步骤(2‑2)设定动作空间:
所述智能体的动作空间为一个10维的离散空间, 该动作空间A包 括对电能的控制Ae以及
对热能的控制Ah, 如下式所示:
A=Ae×Ah
对电能的控制动作为:
Ae=[atcl,al,ac,aG,ap,as]
式中, atcl为TCL负荷的控制信号, al为价格响应型电负荷的控制信息, ac为分布式储能
罐的充放电控制信号, aG为燃气轮机的发电功率控制信号, ap为电能交易价格控制信号, as
为电能交易 顺序控制信号;
对热能的控制动作为:
Ah=[ahc,ahG,ahp,ahs]权 利 要 求 书 2/4 页
3
CN 115409645 A
3
专利 一种基于改进深度强化学习的综合能源系统能量管理方法
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 06:27:49上传分享