专利基于深度强化学习的新能源汽车性能评价方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202110268431.6 (22)申请日 2021.03.12 (65)同一申请的已公布的文献号申请公布号 CN 112989699 A (43)申请公布日 2021.06.18 (73)专利权人重庆交通大学地址 400074 重庆市南岸区学府大道6 6号 (72)发明人隗寒冰　赵春领　李港　 (74)专利代理机构北京海虹嘉诚知识产权代理有限公司 1 1129 专利代理师胡博文 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 111934335 A,2020.1 1.13CN 111845701 A,2020.10.3 0 CN 112287463 A,2021.01.2 9 CN 111523579 A,2020.08.1 1 CN 111291856 A,2020.0 6.16 CN 110348088 A,2019.10.18 杜明秋等. “电动汽车充电控制的深度增强学习优化方法 ”. 《中国电机工程学报》 .2019,第 39卷(第14期), 隗寒冰等. “基于深度强化学习的插电式柴电混合动力汽车多目标优化控制策略 ”. 《重庆交通大学学报（自然科学版）》 .2021,第40卷(第1 期), Guodong Du等.“Deep reinforcement learning based energy mana gement for a hybrid electric vehicle ”. 《Energy》 .2020,第 201卷审查员姚晓斌 (54)发明名称基于深度强化学习的新能源汽车性能评价方法 (57)摘要本发明公开了一种基于深度强化学习的新能源汽车性能评价方法，包括步骤： S1.采集所述新能源汽车的车辆参数并测试新能源汽车的性能得到性能测试结果； S2.对所述车辆参数进行处理得到处理后的参数； S3.构建基于深度强化学习的新能源汽车性能优化模型； S4.将所述处理后的参数输入到所述新能源汽车性能优化模型中得到新能源汽车的性能优化结果； S5.将所述性能优化结果作为评价标准，对所述性能测试结果进行评价，得到新能源汽车的性能评价结果。本发明的一种基于深度强化学习的新能源汽车性能评价方法，能够对新能源汽车的性能进行有效评价，评价效果好，可靠性强。权利要求书2页说明书6页附图2页 CN 112989699 B 2022.05.24 CN 112989699 B 1.一种基于深度强化学习的新能源汽车性能评价方法，其特征在于：包括如下步骤： S1.采集所述新能源汽车的车辆参数并测试新能源汽车的性能得到性能测试结果；其中，所述车辆参数包括状态参数、动力性参数以及经济性参数； S2.对所述车辆参数进行处理得到处理后的参数； S3.构建基于深度强化学习的新能源汽车性能优化模型； S4.将所述处理后的参数输入到所述新能源汽车性能优化模型中得到新能源汽车的性能优化结果； S5.将所述性能优化结果作为评价标准，对所述性能测试结果进行评价，得到新能源汽车的性能评价结果。 2.根据权利要求1所述的基于深度强化学习的新能源汽车性能评价方法，其特征在于：步骤S2中，对所述车辆参数进行处理得到处理后的参数，具体包括： S21.确定车辆参数的状态空间以及车辆参数的状态向量； S22.对车辆参数进行归一化处理得到归一化后的车辆参数。 3.根据权利要求1所述的基于深度强化学习的新能源汽车性能评价方法，其特征在于：步骤S3中，构建基于深度强化学习的新能源汽车性能优化模型，具体包括： S31.确定控制动作对应的Q 值； S32.构建Q网络； S33.构建用于计算目标Q值的网络Qtarget，并构建用于估计当前状态下最大回报值与产生控制动作的网络Qeval； S34.构建优先经验池，所述优先经验池包括多步优先经验回放池Dt1以及单步优先回放池Dt2。 4.根据权利要求3所述的基于深度强化学习的新能源汽车性能评价方法，其特征在于：步骤S31中，根据如下公式控制动作对应的Q 值： Q(st， at)＝Eπ[R(t)+γQ(st+1， at+1)|st＝s， at＝a]；其中， Q(st， at)表示在状态st下选取动作at可以达到的预计未来的回报； R(t)为t时刻的奖励回报函数， γ为奖励衰减因子， st为t时刻车辆的状态， at为t时刻电机的输出功率； st+1 为t+1时刻车辆的状态， at+1为t+1时刻电机的输出功率； Eπ表示期望；所述t时刻的奖励回报函数R(t)为： R(t)＝ω1Rfuel(t)+ω2Remis(t)+ω3Rtime(t)+ω4(SOC‑0.4)；其中， Rfuel(t)为t时刻燃油消耗的回报函数， Remis(t)为t时刻排放的回报函数， Rtime(t) 为t时刻加速时间的回报函数，所述所述权　利　要　求　书 1/2 页 2 CN 112989699 B 2所述为瞬时燃油消耗率， Cfuel、 Cw以及Ct分别为归一化处理后的瞬时燃油消耗率、污染物排放率以及加速时间， ω1、 ω2、 ω3以及ω4均为权重系数， ηw为设定参数。 5.根据权利要求3所述的基于深度强化学习的新能源汽车性能评价方法，其特征在于：对所述新能源汽车性能优化模型进行训练，具体包括： a.获取车辆参数的初始状态，初始化迭代次数，并清空经验池，设定最小样本集的样本数、奖励衰减因子以及学习率； b.利用 ε‑贪心算法以概率ε1选取最大回报值对应的控制动作，以1 ‑ε1的概率随机选取其他的控制动作，并采用经验回放方法将每个时间步长内智能体探索车辆模型环境得到的经验数据放到回放池Dtl中，以概率P(j)来选中经验数据中的样本，将选中的样本存入回放池Dt2； c.在每个回合开始的前L步内，智能体与车辆环境之间只进行交互探索，在L步后智能体才开始学习并更新网络参数； d.先从经验池Dt1中随机抽取K个样本，在所述优化模型的奖励函数的取值达到设定的阈值时，从Dt2中获取样本，在每个回合中单步迭代更新参数；其中，通过最小化损失函数对网络参数进行迭代更新，所述最小化损失函数L(ω)为：其中， r为t时刻的回报值； γ为奖励衰减因子； ω‑为网络Qtarget的网络参数； ω为网络 Qeval的网络参数；为网络Qtarget的目标Q值； Q(st+1， at+1， ω‑) 为网络Qtarget的输出； Q(st， at， ω)为网络Qeval的输出； E为期望； at+1为在车辆状态st+1下选择的控制动作； e.使用梯度下降优化算法使损失函数L(ω)最小，然后对网络Qeval的网络参数的更新；每隔一定时间步长将网络Qeval的网络参数ω 复制给网络Qtarget，得到参数ω‑；若迭代次数i ＞N，则所述新能源汽车性能优化模型的训练完成。 6.根据权利要求5所述的基于深度强化学习的新能源汽车性能评价方法，其特征在于：所述其中， i为经验池中的样本编号， j为经验池中的第j个样本， pj以及pi均为TD‑error， α 为抽取样本时的随机程度。 7.根据权利要求1所述的基于深度强化学习的新能源汽车性能评价方法，其特征在于：步骤S5中，对所述性能测试结果中新能源汽车的动力性能、经济性能以及排放性能进行评价。 8.根据权利要求1所述的基于深度强化学习的新能源汽车性能评价方法，其特征在于：步骤S5还包括：根据所述性能评价结果，从动力性、经济性以及排放性进行分析，得到所述新能源汽车的整车控制策略。权　利　要　求　书 2/2 页 3 CN 112989699 B 3

专利 基于深度强化学习的新能源汽车性能评价方法

专利基于深度强化学习的新能源汽车性能评价方法