专利一种基于强化学习的交叉口前车辆群体车道选择方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111491851.7 (22)申请日 2021.12.08 (71)申请人四川智慧高速科技有限公司地址 610051 四川省成都市二仙桥东三路1 号 (72)发明人李凯　范庸　杨果　陈璟　唐颜东　陈孟　贾浩伟　杨达　 (74)专利代理机构北京正华智诚专利代理事务所(普通合伙) 11870 代理人代维凡 (51)Int.Cl. G08G 1/16(2006.01) G06F 30/20(2020.01) (54)发明名称一种基于强化学习的交叉口前车辆群体车道选择方法 (57)摘要本发明公开了一种基于强化学习的交叉口前车辆群体车道选择方法，包括： S1、构建基于 DQN的交叉口前车辆群体车道选择模型；其中，车辆群体车道选择模型包括每个车辆对应的动作模块及所有车辆共享的DQN模型； S2、将待进行车道选择车辆的状态信息作为所述DQN模型的输入，确定最优车道选择策略并通过对应动作模块输出，作为车辆的车道选择参考；关注车辆群体在信号交叉口前的车道选择问题，即每辆车在行驶过程中决定何时、何地应该去往哪个车道上行驶，通过让车辆在合适的时机选择合适的车道行驶，以使得车辆可以及时驶入到对应的转向车道，合理利用道路资源，实现车辆群体秩序行驶并且可以高效通过信号交叉口。权利要求书3页说明书9页附图8页 CN 114360290 A 2022.04.15 CN 114360290 A 1.一种基于强化学习的交叉口前车辆群体车道选择方法，其特征在于，包括： S1、构建基于DQ N的交叉口前车辆群体车道选择模型；其中，所述车辆群体车道选择模型包括每个车辆对应的动作模块及所有车辆共享的 DQN模型； S2、将待进行车道选择车辆的状态信息作为所述DQN模型的输入，确定最优车道选择策略并通过对应动作模块输出，作为车辆的车道选择参考；在所述DQN模型中，将每个车辆作为一个智能体，基于不同车辆的车道选择经验构建经验池，并对所述DQ N模型进行迭代优化。 2.根据权利要求1所述的基于强化学习的交叉口前车辆群体车道选择方法，其特征在于，所述动作模块用于输出对应车辆的最优车道选择策略，并对车辆进行动作跟踪；所述动作模块包括LC201换道模型和Krauss跟驰模型，当最优车道选择策略为保持换道时，通过Krauss跟驰模型进行动作跟踪，当最优车道选择策略为向左或向右换道时，通过 LC201换道模型进行动作跟踪。 3.根据权利要求1所述的基于强化学习的交叉口前车辆群体车道选择方法，其特征在于，所述步骤S2中，通过构建状态空间确定待进行状态车辆的状态信息所述状态空间中的参数包括本车辆转向需求、本车辆所在车道、本车到交叉口距离、向右转换可行性、向左换道可行性、信号灯相位状态信息以及信号灯剩余时间；所述步骤S2中，所述最优车道选择策略从动作空间中确定，所述动作空间中的车道选择策略包括向右换道、向左换道以及保持车道。 4.根据权利要求1所述的基于强化学习的交叉口前车辆群体车道选择方法，其特征在于，所述每个智能体的奖励函数影响因素包括通过下游信号交叉口的效率、换道到目标转向车道的时机、换道协同以及换道是否成功；其中，对于所述下游信号交叉口的效率，根据车辆到达下游交叉口时的信号灯状态给出奖励R1：对于换道到目标转向车道的时机，根据车辆所在新的车道和目标转向车道的间隔给出惩罚R2： R2＝‑2|Xd‑Xt+1|×δ1 式中， δ1为车辆驶入到目标转向车道这一目标在决策步车道选择中的重要程度， Xd为车辆目标转向需求， Xt+1为车辆在t+1时刻所在车道编号；对于换道协同，根据车辆在决策步选择换道到其他车道的动作给出惩罚R3：式中， δ2为车辆换道惩罚随着行驶距离的重要程度；对于是否换道成功，根据车辆在决策步执行换道时未成功给出惩罚R4：权　利　要　求　书 1/3 页 2 CN 114360290 A 2式中， δ3为换道成功随着车辆行驶距离的重要程度变化。 5.根据权利要求1所述的基于强化学习的交叉口前车辆群体车道选择方法，其特征在于，所述步骤S2中，所述DQN模型的经验池中存有每个车辆的车道选择经验其中，为车辆m在t时刻的状态信息，为根据状态信息基于车道选择策略π执行的车道选择决策，为根据t+1时刻车辆m的状态信息计算的车辆动作回报， m＝1,2, 3,…,n,n为车辆总数。 6.根据权利要求5所述的基于强化学习的交叉口前车辆群体车道选择方法，其特征在于，所述步骤S2中，通过DQ N模型确定最优车道选择策略的方法具体为：基于动作空间中不同的车道选择策略，基于待进行车辆的状态信息，计算对应的动作状态值函数，将最优动作状态值函数对应的车道选择策略作为最优车道选择策略；其中，所述动作空间中的车道选择策略包括向右换道、向左换道以及保持车道；其中，所述最优动作状态值函数Q*(s,a)的表达式为：式中， Eπ为策略为π时折扣函数的期望，为对应的动作状态值函数， γ为折扣因子，为策略为最优策略π*时对应的最大动作状态值函数。 7.根据权利要求5所述的基于强化学习的交叉口前车辆群体车道选择方法，其特征在于，通过对经验池中的车道选择经验<si,ai,ri,si’>进行随机抽样，根据其对所述DQN模型进行迭代优化，具体方法为：计算基于当前抽样的车道选择经验<si,ai,ri,si’>中s’输入目标Critic网络中计算下一时刻的最大动作状态值函数最大值，并结合ri得到的累计折扣回报的估计值yi，将yi作为所述DQN模型中的评估Critic网络的目标值并采用梯度下降法对评估Critic网络进行训练，进而更新评估Cr itic网络的参数。并在每次达到设定训练步数后更新所述DQN模型中的目标Critic网络的参数。最终，实现DQ N模型的迭代优化；其中， si为抽取的经验数据中本时刻车辆i的状态信息， ai为抽取的经验数据中本时刻的车道选择决策， ri为根据下一时刻车辆i的状态信息si’计算的车辆动作回报， i＝1,2, 3,…,n。 8.根据权利要求7所述的基于强化学习的交叉口前车辆全体车道选择方法，其特征在于，所述估计值yi的计算公式为：式中，为目标Critic网络输出的动作状态值函数， maxa′为目标Critic网络输出的动作状态值函数的最大值， γ为折扣因子， ri为车辆i的车辆动作回报， si′为抽取的经验数据中下一时刻的车辆i的状态信息， a ′为下一时刻选取的车道选择决策，为目标Critic网络权　利　要　求　书 2/3 页 3 CN 114360290 A 3

专利 一种基于强化学习的交叉口前车辆群体车道选择方法

专利一种基于强化学习的交叉口前车辆群体车道选择方法