(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202110357530.1
(22)申请日 2021.04.01
(65)同一申请的已公布的文献号
申请公布号 CN 112977606 A
(43)申请公布日 2021.06.18
(73)专利权人 清华大学
地址 100084 北京市海淀区清华园
(72)发明人 薛仲瑾 李亮 赵锦涛 黄昌尧
钟志华
(74)专利代理 机构 北京清亦华知识产权代理事
务所(普通 合伙) 11201
专利代理师 欧阳高凤
(51)Int.Cl.
B62D 5/04(2006.01)
B62D 6/00(2006.01)G06F 30/15(2020.01)
G06F 30/27(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
B62D 113/00(2006.01)
审查员 黄方明
(54)发明名称
基于DDPG的线控转向系统转向补偿控制方
法及装置
(57)摘要
本发明公开了一种基于DDPG的线控转向系
统转向补偿控制方法及装置, 建立线控转向系统
的动作Actor网络和动作价值Critic网络, 根据
这两个网络构建深度确定性策略梯度学习算法
框架; 设计训练所需的奖励函数; 根据奖励函数
及深度确定性策略梯度学习算法框架建立深度
确定性策略梯度算法; 根据线控转向系统不同工
况下的转向场景, 对深度确定性策略梯度算法进
行硬件在环及实车训练, 调整深度确定性策略梯
度算法Actor网络与Critic网络 的参数, 以使深
度确定性策略梯度算法得到线控转向系统转角
的补偿值。 该方法无需了解线控转向系统底层控
制器的控制策略, 可以广泛适配于任意结构形式
的线控转向系统, 实现精确的转角控制。
权利要求书2页 说明书7页 附图4页
CN 112977606 B
2022.11.11
CN 112977606 B
1.一种基于D DPG的线控转向系统转向补偿控制方法, 其特 征在于, 包括以下步骤:
S1, 建立线控转向系统的动作Actor网络和动作价值Critic网络, 根据所述动作Actor
网络和所述动作价 值Critic网络构建深度确定性策略梯度学习算法框架;
S2, 设计训练所需的奖励函数;
S3, 根据所述奖励函数及所述深度确定性策略梯度学习算法框架建立深度确定性策略
梯度算法;
S4, 对所述深度确定性策略梯度算法进行硬件在环及实车训练, 调整深度确定性策略
梯度算法动作Actor网络与动作价值Critic网络的参数, 以使所述深度确 定性策略梯度算
法得到目标转角补偿值。
2.根据权利要求1所述的方法, 其特 征在于, 所述S1进一 步包括:
S11, 定义状态空间S={vx,wz, δ, δdes}和状态向量st=[vx_t,wz_t, δt, δt‑1, δdes_t, δdes_t‑1]T,st
∈S, 其中, vx为车辆纵向车速, wz为车辆横摆角速度, δ为实际转角, δdes为目标转角, t为当前
时刻, t‑1为上一时刻;
S12, 建立所述动作Actor网络 a= μ(s|θμ), 其中, μ表示动作Actor网络, 状态变量s为网
络输入, θμ为网络参数, a为网络 输出动作;
S13, 建立所述动作价值Critic网络Q(s,a|θQ), 其中, Q表示动作价值Critic网络, 状态
变量s以及动作Actor网络的输出动作a为输入, θQ为网络参数。
3.根据权利要求2所述的方法, 其特 征在于, 所述奖励函数为:
r=‑w1| δdes‑δa|‑w2( δdes‑δa)2‑w3|ΔIoutput|
其中, δdes为目标转角, δa为线控转向实际转角, ΔIoutput为动作Actor网络的当前输出和
上一时刻的输出之间的距离, wi,i=1,2,3为各项的权 重系数。
4.根据权利要求1所述的方法, 其特征在于, 所述动作Actor网络和所述动作价值
Critic网络为隐层式神经网络 。
5.根据权利要求1所述的方法, 其特征在于, 对所述深度确定性策略梯度算法进行训
练, 进一步包括:
根据线控转向系统 的不同工况下的转向场景, 对深度确定性策略梯度算法进行硬件在
环训练, 硬件在环训练系统包括上位机PC、 下位机PXI、 线控转向系统ECU以及线控转向台
架; 训练过程中, DDPG的输出作为目标转角的补偿值, 将补偿后的目标转角命令发送给线控
转向系统底层 控制器, 此外, 将线控转向台架底层执行的实际的转角发送给上位机, 作为车
辆运行仿真软件C arsim的输入, DDPG的状态向量st=[vx_t,wz_t, δt, δt‑1, δdes_t, δdes_t‑1]T,st
∈S通过Carsim输出的车辆状态和系统最初输入的目标转角得到, 利用学习算法调整动作
Actor网络和动作价 值Critic网络的参数。
6.根据权利要求5所述的方法, 其特 征在于, S4之后还 包括:
S5, 将硬件在环训练得到的算法先验网络参数作为算法网络参数的初始值应用到实车
上, 根据车辆运行 过程中的即时数据, 实时对算法的网络参数进行 更新。
7.根据权利要求2所述的方法, 其特征在于, 将所述深度确定性策略梯度算法输出的目
标转角补偿值与目标转角相加, 得到补偿后的目标转角命令, 将补偿后的目标转角命令作
为实际发送给线控转向系统底层控制器的目标转角。
8.一种基于D DPG的线控转向系统转向补偿控制装置, 其特 征在于, 包括:权 利 要 求 书 1/2 页
2
CN 112977606 B
2搭建模块, 用于建立线控转向系统的动作Actor网络和动作价值Critic网络, 根据所述
动作Actor网络和所述动作价 值Critic网络构建深度确定性策略梯度学习算法框架;
训练模块, 用于设计训练所需的奖励函数;
建立模块, 用于根据 所述奖励函数及所述深度确定性策略梯度 学习算法框架建立深度
确定性策略梯度算法;
补偿模块, 用于对所述深度确定性策略梯度算法进行硬件在环及实车训练, 调整深度
确定性策略梯度算法动作Actor网络与动作价值Critic网络的参数, 以使所述深度确 定性
策略梯度算法得到目标转角补偿值。
9.根据权利要求8所述的基于DDPG的线控转向系统转向补偿控制装置, 其特征在于, 还
包括:
调整模块, 用于将硬件在环训练得到的算法先验 网络参数作为算法网络参数的初始值
应用到实车 上, 根据车辆运行 过程中的即时数据, 实时对算法的网络参数进行 更新。权 利 要 求 书 2/2 页
3
CN 112977606 B
3
专利 基于DDPG的线控转向系统转向补偿控制方法及装置
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 03:22:38上传分享