专利基于DDPG的线控转向系统转向补偿控制方法及装置

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202110357530.1 (22)申请日 2021.04.01 (65)同一申请的已公布的文献号申请公布号 CN 112977606 A (43)申请公布日 2021.06.18 (73)专利权人清华大学地址 100084 北京市海淀区清华园 (72)发明人薛仲瑾　李亮　赵锦涛　黄昌尧　钟志华　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 专利代理师欧阳高凤 (51)Int.Cl. B62D 5/04(2006.01) B62D 6/00(2006.01)G06F 30/15(2020.01) G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) B62D 113/00(2006.01) 审查员黄方明 (54)发明名称基于DDPG的线控转向系统转向补偿控制方法及装置 (57)摘要本发明公开了一种基于DDPG的线控转向系统转向补偿控制方法及装置，建立线控转向系统的动作Actor网络和动作价值Critic网络，根据这两个网络构建深度确定性策略梯度学习算法框架；设计训练所需的奖励函数；根据奖励函数及深度确定性策略梯度学习算法框架建立深度确定性策略梯度算法；根据线控转向系统不同工况下的转向场景，对深度确定性策略梯度算法进行硬件在环及实车训练，调整深度确定性策略梯度算法Actor网络与Critic网络的参数，以使深度确定性策略梯度算法得到线控转向系统转角的补偿值。该方法无需了解线控转向系统底层控制器的控制策略，可以广泛适配于任意结构形式的线控转向系统，实现精确的转角控制。权利要求书2页说明书7页附图4页 CN 112977606 B 2022.11.11 CN 112977606 B 1.一种基于D DPG的线控转向系统转向补偿控制方法，其特征在于，包括以下步骤： S1，建立线控转向系统的动作Actor网络和动作价值Critic网络，根据所述动作Actor 网络和所述动作价值Critic网络构建深度确定性策略梯度学习算法框架； S2，设计训练所需的奖励函数； S3，根据所述奖励函数及所述深度确定性策略梯度学习算法框架建立深度确定性策略梯度算法； S4，对所述深度确定性策略梯度算法进行硬件在环及实车训练，调整深度确定性策略梯度算法动作Actor网络与动作价值Critic网络的参数，以使所述深度确定性策略梯度算法得到目标转角补偿值。 2.根据权利要求1所述的方法，其特征在于，所述S1进一步包括： S11，定义状态空间S＝{vx,wz, δ, δdes}和状态向量st＝[vx_t,wz_t, δt, δt‑1, δdes_t, δdes_t‑1]T,st ∈S，其中， vx为车辆纵向车速， wz为车辆横摆角速度， δ为实际转角， δdes为目标转角， t为当前时刻， t‑1为上一时刻； S12，建立所述动作Actor网络 a＝ μ(s|θμ)，其中， μ表示动作Actor网络，状态变量s为网络输入， θμ为网络参数， a为网络输出动作； S13，建立所述动作价值Critic网络Q(s,a|θQ)，其中， Q表示动作价值Critic网络，状态变量s以及动作Actor网络的输出动作a为输入， θQ为网络参数。 3.根据权利要求2所述的方法，其特征在于，所述奖励函数为： r＝‑w1| δdes‑δa|‑w2( δdes‑δa)2‑w3|ΔIoutput| 其中， δdes为目标转角， δa为线控转向实际转角， ΔIoutput为动作Actor网络的当前输出和上一时刻的输出之间的距离， wi,i＝1,2,3为各项的权重系数。 4.根据权利要求1所述的方法，其特征在于，所述动作Actor网络和所述动作价值 Critic网络为隐层式神经网络。 5.根据权利要求1所述的方法，其特征在于，对所述深度确定性策略梯度算法进行训练，进一步包括：根据线控转向系统的不同工况下的转向场景，对深度确定性策略梯度算法进行硬件在环训练，硬件在环训练系统包括上位机PC、下位机PXI、线控转向系统ECU以及线控转向台架；训练过程中， DDPG的输出作为目标转角的补偿值，将补偿后的目标转角命令发送给线控转向系统底层控制器，此外，将线控转向台架底层执行的实际的转角发送给上位机，作为车辆运行仿真软件C arsim的输入， DDPG的状态向量st＝[vx_t,wz_t, δt, δt‑1, δdes_t, δdes_t‑1]T,st ∈S通过Carsim输出的车辆状态和系统最初输入的目标转角得到，利用学习算法调整动作 Actor网络和动作价值Critic网络的参数。 6.根据权利要求5所述的方法，其特征在于， S4之后还包括： S5，将硬件在环训练得到的算法先验网络参数作为算法网络参数的初始值应用到实车上，根据车辆运行过程中的即时数据，实时对算法的网络参数进行更新。 7.根据权利要求2所述的方法，其特征在于，将所述深度确定性策略梯度算法输出的目标转角补偿值与目标转角相加，得到补偿后的目标转角命令，将补偿后的目标转角命令作为实际发送给线控转向系统底层控制器的目标转角。 8.一种基于D DPG的线控转向系统转向补偿控制装置，其特征在于，包括：权　利　要　求　书 1/2 页 2 CN 112977606 B 2搭建模块，用于建立线控转向系统的动作Actor网络和动作价值Critic网络，根据所述动作Actor网络和所述动作价值Critic网络构建深度确定性策略梯度学习算法框架；训练模块，用于设计训练所需的奖励函数；建立模块，用于根据所述奖励函数及所述深度确定性策略梯度学习算法框架建立深度确定性策略梯度算法；补偿模块，用于对所述深度确定性策略梯度算法进行硬件在环及实车训练，调整深度确定性策略梯度算法动作Actor网络与动作价值Critic网络的参数，以使所述深度确定性策略梯度算法得到目标转角补偿值。 9.根据权利要求8所述的基于DDPG的线控转向系统转向补偿控制装置，其特征在于，还包括：调整模块，用于将硬件在环训练得到的算法先验网络参数作为算法网络参数的初始值应用到实车上，根据车辆运行过程中的即时数据，实时对算法的网络参数进行更新。权　利　要　求　书 2/2 页 3 CN 112977606 B 3

专利 基于DDPG的线控转向系统转向补偿控制方法及装置

专利基于DDPG的线控转向系统转向补偿控制方法及装置