(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202110268431.6
(22)申请日 2021.03.12
(65)同一申请的已公布的文献号
申请公布号 CN 112989699 A
(43)申请公布日 2021.06.18
(73)专利权人 重庆交通大 学
地址 400074 重庆市南岸区学府大道6 6号
(72)发明人 隗寒冰 赵春领 李港
(74)专利代理 机构 北京海虹嘉诚知识产权代理
有限公司 1 1129
专利代理师 胡博文
(51)Int.Cl.
G06F 30/27(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(56)对比文件
CN 111934335 A,2020.1 1.13CN 111845701 A,2020.10.3 0
CN 112287463 A,2021.01.2 9
CN 111523579 A,2020.08.1 1
CN 111291856 A,2020.0 6.16
CN 110348088 A,2019.10.18
杜明秋等. “电动汽车充电控制的深度增强
学习优化方法 ”. 《中国电机 工程学报》 .2019,第
39卷(第14期),
隗寒冰等. “基于深度强化学习的插电式柴
电混合动力汽车多目标优化控制策略 ”. 《重庆交
通大学学报 (自然科 学版) 》 .2021,第40卷(第1
期),
Guodong Du等.“Deep reinforcement
learning based energy mana gement for a
hybrid electric vehicle ”. 《Energy》 .2020,第
201卷
审查员 姚晓斌
(54)发明名称
基于深度强化学习的新能源汽车性能评价
方法
(57)摘要
本发明公开了一种基于深度强化学习的新
能源汽车性能评价方法, 包括步骤: S1.采集所述
新能源汽车的车辆参数并测试新能源汽车的性
能得到性能测试结果; S2.对所述车辆参数进行
处理得到处理后的参数; S3.构建基于深度强化
学习的新能源汽车性能优化模型; S4.将所述处
理后的参数输入到所述新能源汽车性能优化模
型中得到新能源汽车的性能优化结果; S5.将所
述性能优化结果作为评价标准, 对 所述性能测试
结果进行评价, 得到新能源汽车的性能评价结
果。 本发明的一种基于深度强化学习的新能源汽
车性能评价方法, 能够对新能源汽 车的性能进行
有效评价, 评价效果 好, 可靠性强。
权利要求书2页 说明书6页 附图2页
CN 112989699 B
2022.05.24
CN 112989699 B
1.一种基于深度强化学习的新能源 汽车性能评价方法, 其特 征在于: 包括如下步骤:
S1.采集所述新能源汽车的车辆参数并测试新能源汽车的性能得到性能测试结果; 其
中, 所述车辆参数包括状态参数、 动力性 参数以及经济性 参数;
S2.对所述车辆参数进行处 理得到处 理后的参数;
S3.构建基于深度强化学习的新能源 汽车性能优化模型;
S4.将所述处理后的参数输入到所述新 能源汽车性能优化模型中得到新能源汽车的性
能优化结果;
S5.将所述性能优化结果作为评价标准, 对所述性能测试结果进行评价, 得到新能源汽
车的性能评价结果。
2.根据权利要求1所述的基于深度强化学习的新能源汽车性 能评价方法, 其特征在于:
步骤S2中, 对所述车辆参数进行处 理得到处 理后的参数, 具体包括:
S21.确定车辆参数的状态空间以及车辆参数的状态向量;
S22.对车辆参数进行归一 化处理得到归一 化后的车辆参数。
3.根据权利要求1所述的基于深度强化学习的新能源汽车性 能评价方法, 其特征在于:
步骤S3中, 构建基于深度强化学习的新能源 汽车性能优化模型, 具体包括:
S31.确定控制动作对应的Q 值;
S32.构建Q网络;
S33.构建用于计算目标Q值的网络Qtarget, 并构建用于估计当前状态下最大回报值与产
生控制动作的网络Qeval;
S34.构建优先经验池, 所述优先经验池包 括多步优先经验回放池Dt1以及单步优先回放
池Dt2。
4.根据权利要求3所述的基于深度强化学习的新能源汽车性 能评价方法, 其特征在于:
步骤S31中, 根据如下公式控制动作对应的Q 值:
Q(st, at)=Eπ[R(t)+γQ(st+1, at+1)|st=s, at=a];
其中, Q(st, at)表示在状态st下选取动作at可以达到的预计 未来的回报; R(t)为t时刻的
奖励回报函数, γ为奖励衰减因子, st为t时刻车辆的状态, at为t时刻电机的输出功率; st+1
为t+1时刻车辆的状态, at+1为t+1时刻电机的输出功率; Eπ表示期望;
所述t时刻的奖励回报函数R(t)为:
R(t)=ω1Rfuel(t)+ω2Remis(t)+ω3Rtime(t)+ω4(SOC‑0.4);
其中, Rfuel(t)为t时刻燃油消耗的回报函数, Remis(t)为t时刻 排放的回报函数, Rtime(t)
为t时刻加速时间的回报函数,
所述
所述
权 利 要 求 书 1/2 页
2
CN 112989699 B
2所述
为瞬时燃油消耗率, Cfuel、 Cw以及Ct分别为归一化处理后的瞬时燃油消耗率、 污染
物排放率以及加速时间, ω1、 ω2、 ω3以及ω4均为权重系数, ηw为设定参数。
5.根据权利要求3所述的基于深度强化学习的新能源汽车性 能评价方法, 其特征在于:
对所述新能源汽车性能优化模型进行训练, 具体包括:
a.获取车辆参数的初始状态, 初始化迭代次数, 并清空经验池, 设定最小样本集的样本
数、 奖励衰减因子以及学习率;
b.利用 ε‑贪心算法以概率ε1选取最大回报值对应的控制动作, 以1 ‑ε1的概率随机选取
其他的控制动作, 并采用经验回放方法将每个时间步长内智能体探索车辆模型环境得到的
经验数据放到回放池Dtl中, 以概率P(j)来选中经验数据中 的样本, 将选中 的样本存入回放
池Dt2;
c.在每个回合开始的前L步内, 智能体与车辆环境之间只进行交互探索, 在L步后智能
体才开始学习并更新网络参数;
d.先从经验池Dt1中随机抽取K个样本, 在所述优化模型的奖励函数的取值达到设定的
阈值时, 从Dt2中获取样本, 在每 个回合中单步迭代更新 参数;
其中, 通过最小化损失函数对网络参数进行迭代更新, 所述 最小化损失函数L(ω)为:
其中, r为t时刻的回报值; γ为奖励衰减因子; ω‑为网络Qtarget的网络参数; ω为网络
Qeval的网络参数;
为网络Qtarget的目标Q值; Q(st+1, at+1, ω‑)
为网络Qtarget的输出; Q(st, at, ω)为网络Qeval的输出; E为期望; at+1为在车辆状态st+1下选择
的控制动作;
e.使用梯度下降优化算法使损失函数L(ω)最小, 然后对网络Qeval的网络参数的更新;
每隔一定时间步长将网络Qeval的网络参数ω 复制给网络Qtarget, 得到参数ω‑; 若迭代次数i
>N, 则所述 新能源汽车性能优化模型的训练完成。
6.根据权利要求5所述的基于深度强化学习的新能源汽车性 能评价方法, 其特征在于:
所述
其中, i为经验池中的样本编号, j为经验池中的第j个样本, pj以
及pi均为TD‑error, α 为抽取样本时的随机程度。
7.根据权利要求1所述的基于深度强化学习的新能源汽车性 能评价方法, 其特征在于:
步骤S5中, 对所述性能测试结果中新能源汽车 的动力性能、 经济性能以及排放性能进行评
价。
8.根据权利要求1所述的基于深度强化学习的新能源汽车性 能评价方法, 其特征在于:
步骤S5还包括: 根据所述性能评价结果, 从动力性、 经济性以及排放性进行分析, 得到所述
新能源汽车的整车控制策略。权 利 要 求 书 2/2 页
3
CN 112989699 B
3
专利 基于深度强化学习的新能源汽车性能评价方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 03:23:21上传分享