专利基于负荷预测和深度强化学习的台区电动汽车有序充电方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111410243.9 (22)申请日 2021.11.24 (71)申请人广东电网有限责任公司中山供电局地址 528400 广东省中山市东区博爱六路 68号申请人南方电网数字电网研究院有限公司　浙江大学 (72)发明人胡筱曼　潘斌　陈旗展　崔益国　陈浩河　董芝春　王干军　黄宇行　陆靖宇　麦涵　何欣欣　蔡田田　邓清唐　陈波　彭勇刚　莫浩杰　胡丹尔　孙静　翁楚迪　韦巍　 (74)专利代理机构杭州中成专利事务所有限公司 33212 代理人周世骏(51)Int.Cl. G06Q 10/04(2012.01) G06Q 30/02(2012.01) G06Q 50/06(2012.01) G06N 3/04(2006.01) B60L 53/60(2019.01) (54)发明名称基于负荷预测和深度强化学习的台区电动汽车有序充电方法 (57)摘要本发明涉及电动汽车充电技术，旨在提供一种基于负荷预测和深度强化学习的台区电动汽车有序充电方法。包括：根据变电站历史充电剩余容量信息，使用全连接前馈神经网络预测未来剩余充电容量；根据弹性电价机制和预测的未来剩余充电容量，使用基于DQN的深度强化学习算法调整电动汽车充电策略，控制电动汽车接入充电桩的数量。本发明将负荷预测方法引入到电动汽车有序充电运算中，将预测的未来剩余充电容量作为电动汽车充电调度的依据，比传统方法更具实时性、超前性。通过引入深度强化学习到电动汽车有序充电运算中，利用预测到的未来信息超前调度电动汽车有序充电，且具有实时自学习更新能力，比传统算法更灵活有效，进一步提高了经济性和高效性。权利要求书2页说明书4页附图1页 CN 114169593 A 2022.03.11 CN 114169593 A 1.一种基于负荷预测和深度强化学习的台区电动汽车有序充电方法，其特征在于，包括以下步骤： (1)根据变电站历史充电剩余容量信息，使用全连接前馈神经网络预测未来剩余充电容量； (2)根据弹性电价机制和步骤(1)中预测的未来剩余充电容量，使用基于DQN的深度强化学习算法调整电动汽车充电策略，控制电动汽车接入充电桩的数量。 2.根据权利要求1所述的方法，其特征在于，所述步骤(1)具体包括： (1.1)获取变电站台区历史剩余充电容量数据并分割数据样本，形成训练和输入用的数据，其输出数据为未来剩余充电容量数据； (1.2)搭建包括一个卷积层和两个线性层的F FN模型；所用F FN模型输出计算公式为： Out(X)＝Tanh(co nv(X)W1+b1)W2+b2 式中： out(X)为FFN模型的输出； Tanh(.)为激活函数； conv(.)为卷积网络； (Wi， bi)为网络参数； X为网络输入； (1.3)确定训练用损失函数为：式中为损失函数； T为时间步长； xi和分别代表模型预测值与真实标签值； (1.4)使用梯度下降算法训练全连接前馈神经网络模型； (1.5)将变电站台区历史剩余充电容量输入训练后的模型，得到预测的未来剩余充电容量。 3.根据权利要求1所述的方法，其特征在于，所述步骤(1.4)，使用梯度下降算法训练的具体步骤包括： (a)随机初始化模型参数，即权重wi和偏差bi； (b)把输入数据传入模型，得到输出； (c)根据损失函数计算得损失上； (d)对每一个产生误差的神经元，依据下式调整模型参数以减小误差：式中， L为损失函数； wi和bi为模型的神经元权重和偏差； α 为学习率； (e)重复步骤(a) ‑(d)直到损失收敛。 4.根据权利要求1所述的方法，其特征在于，所述步骤(2)具体包括： (2.1)将步骤(1)所得的未来剩余充电容量作为DQN模型的状态，具体为st＝{Et， Et+1，…， ET}，表示从当前时刻t到未来时刻T的剩余充电容量； (2.2)确定DQN模型的动作，表示为at＝{0， 1，…， N}，即当前时刻t接入充电桩的电动汽车数量；其中， N表示可接入的最大电动汽车数； (2.3)假定每辆电动汽车的充电功率λ恒定且相同，将DQN模型的奖励表示为： rt＝‑Ptat λ‑α(V‑at)2 其中， α 为满意度参数； Pt为当前时刻的电动车充电电价； (2.4)确定DQ N模型的目标函数为：权　利　要　求　书 1/2 页 2 CN 114169593 A 2其中， π表示动作策略； Eπ为在当前动作策略下的期望； γ∈[0， 1]为折扣因子，表示未来奖励对当前奖励的相对重要性； γk为考虑第k步奖励对当前奖励的影响； K为考虑的总动作步长数； k为单步动作步长； rt+1为采取相应动作在下一时刻能获取的奖励值； st为当前时刻的状态； at为当前时刻的动作； (2.5)训练迭代DQN模型，得到最优动作策略即每一时刻允许接入充电桩的电动汽车数量。 5.根据权利要求4所述的方法，其特征在于，所述步骤(2.3)中， Pt采用弹性电价机制时，其公式为：其中， A∈[0.2， 0.6]，为电价调整系数；为充电桩占用率。 6.根据权利要求4所述的方法，其特征在于，所述步骤(2.5)中，训练迭代DQN模型时的具体步骤包括： (a)根据当前环境st，使用 ε贪婪算法选择当前状态下的动作at； (b)计算当前的奖励rt； (c)通过下式更新目标函数Q(st， at)：式中， r(st， at)为当前奖励即rt； max(Q(st+1， at+1))为下一时刻的采取动作所能得到的最大的Q值； θ∈[ 0， 1]为目标函数学习率，表示Q函数更新时保留先验数据的多少，即权衡上个Q值对当前Q 值的相对重要性； (d)重复步骤(a) ‑(c)直到|Q( σ )‑Q( σ‑1)|≤ τ，其中σ 为当前步， τ 为阈值。 7.根据权利要求1所述的方法，其特征在于，当变电站台区接入充电桩的电动汽车数量过多，导致超过台区变压器最大容量时：优先调节台区储能放电直至充电桩负荷小于变压器最大容量与释放的储能容量之和，缓解充电压力；若储能同样不足时，则通过直接负荷控制关闭充电桩工作。权　利　要　求　书 2/2 页 3 CN 114169593 A 3

专利 基于负荷预测和深度强化学习的台区电动汽车有序充电方法

专利基于负荷预测和深度强化学习的台区电动汽车有序充电方法