(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111491851.7
(22)申请日 2021.12.08
(71)申请人 四川智慧高速科技有限公司
地址 610051 四川省成 都市二仙桥 东三路1
号
(72)发明人 李凯 范庸 杨果 陈璟 唐颜东
陈孟 贾浩伟 杨达
(74)专利代理 机构 北京正华智诚专利代理事务
所(普通合伙) 11870
代理人 代维凡
(51)Int.Cl.
G08G 1/16(2006.01)
G06F 30/20(2020.01)
(54)发明名称
一种基于强化学习的交叉口前车辆群体车
道选择方法
(57)摘要
本发明公开了一种基于强化学习的交叉口
前车辆群体车道选择方法, 包括: S1、 构建基于
DQN的交叉口前车辆群体车道选择模型; 其中, 车
辆群体车道选择模型包括每个车辆对应的动作
模块及所有车辆共享的DQN模型; S2、 将待进行车
道选择车辆的状态信息作为所述DQN模型的输
入, 确定最优 车道选择策略并通过对应动作模块
输出, 作为车辆的车道选择参考; 关注车辆群体
在信号交叉口前的车道选择问题, 即每辆车在行
驶过程中决定何时、 何地应该去往哪个车道上行
驶, 通过让车辆在合适的时机选择合适的车道行
驶, 以使得车辆可以及时驶入到对应的转向车
道, 合理利用道路资源, 实现车辆群体秩序行驶
并且可以高效通过信号交叉口。
权利要求书3页 说明书9页 附图8页
CN 114360290 A
2022.04.15
CN 114360290 A
1.一种基于强化学习的交叉口前 车辆群体车道选择 方法, 其特 征在于, 包括:
S1、 构建基于DQ N的交叉口前 车辆群体车道选择模型;
其中, 所述车辆群体车道选择模型包括每个车辆对应的动作模块及所有车辆共享的
DQN模型;
S2、 将待进行车道选择车辆的状态信息作为所述DQN模型的输入, 确定最优车道选择策
略并通过对应动作模块输出, 作为车辆的车道选择参 考;
在所述DQN模型中, 将每个车辆作为一个智能体, 基于不同车辆的车道选择经验构建经
验池, 并对所述DQ N模型进行迭代优化。
2.根据权利要求1所述的基于强化学习的交叉口前车辆群体车道选择方法, 其特征在
于, 所述动作模块用于 输出对应车辆的最优车道选择 策略, 并对车辆进行动作跟踪;
所述动作模块包括LC201换道模型和Krauss跟驰模型, 当最优车道选择策略为保持换
道时, 通过Krauss跟驰模 型进行动作跟踪, 当最优 车道选择策略为向左或向右换道时, 通过
LC201换道模型进行动作跟踪。
3.根据权利要求1所述的基于强化学习的交叉口前车辆群体车道选择方法, 其特征在
于, 所述步骤S2中, 通过构建状态空间确定待 进行状态车辆的状态信息
所述状态空间中的参数包括本车辆转向需求、 本车辆所在车道、 本车到交叉口距离、 向
右转换可行性、 向左换道可 行性、 信号灯相位状态信息以及信号灯剩余时间;
所述步骤S2中, 所述最优车道选择策略从动作空间中确定, 所述动作空间中的车道选
择策略包括向右换道、 向左换道以及保持车道。
4.根据权利要求1所述的基于强化学习的交叉口前车辆群体车道选择方法, 其特征在
于, 所述每个智能体的奖励函数影响因素包括通过下游信号交叉 口的效率、 换道到目标转
向车道的时机、 换道 协同以及换道是否成功;
其中, 对于所述下游信号交叉口的效率, 根据车辆到达下游交叉口时的信号灯状态给
出奖励R1:
对于换道到目标转向车道的时机, 根据车辆所在新的车道和目标转向车道的间隔给出
惩罚R2:
R2=‑2|Xd‑Xt+1|×δ1
式中, δ1为车辆驶入到目标转向车道这一目标在决策步车道选择中的重要程度, Xd为车
辆目标转向需求, Xt+1为车辆在t+1时刻所在车道编号;
对于换道 协同, 根据车辆在决策步选择 换道到其 他车道的动作给 出惩罚R3:
式中, δ2为车辆换道惩罚随着行驶距离的重要程度;
对于是否换道成功, 根据车辆在决策步执 行换道时未成功给 出惩罚R4:权 利 要 求 书 1/3 页
2
CN 114360290 A
2式中, δ3为换道成功随着车辆行驶距离的重要程度变化。
5.根据权利要求1所述的基于强化学习的交叉口前车辆群体车道选择方法, 其特征在
于 , 所述步骤S2中 , 所述DQN模型的经验池中存有每个车辆的车道选择经验
其中,
为车辆m在t时刻的状态信息,
为根据状态信息
基于车道 选择策略π执行的
车道选择决策,
为根据t+1时刻车辆m的状态信息
计算的车辆动作回报, m=1,2,
3,…,n,n为车辆总数。
6.根据权利要求5所述的基于强化学习的交叉口前车辆群体车道选择方法, 其特征在
于, 所述步骤S2中, 通过DQ N模型确定最优车道选择 策略的方法具体为:
基于动作空间中不同的车道选择策略, 基于待进行车辆的状态信息, 计算对应的动作
状态值函数, 将最优动作状态值 函数对应的车道选择 策略作为 最优车道选择 策略;
其中, 所述动作空间中的车道选择 策略包括向右换道、 向左换道以及保持车道;
其中, 所述 最优动作状态值 函数Q*(s,a)的表达式为:
式中, Eπ为策略为π时折扣函数的期望,
为
对应的动作状态值函数,
γ为折扣因子,
为策略为 最优策略π*时
对应的最大动作状态值 函数。
7.根据权利要求5所述的基于强化学习的交叉口前车辆群体车道选择方法, 其特征在
于, 通过对经验池中的车道选择经验<si,ai,ri,si’>进行随机抽样, 根据其对所述DQN模型
进行迭代优化, 具体方法为:
计算基于当前抽 样的车道选择经验<si,ai,ri,si’>中s’输入目标Critic网络 中计算下
一时刻的最大动作状态 值函数最大值, 并结合ri得到的累计折扣回报的估计值yi, 将yi作为
所述DQN模型中的评估Critic网络的目标值并采用 梯度下降法对评估Critic网络进行训
练, 进而更新评估Cr itic网络的参数。 并在每次达到 设定训练步数后更新所述DQN模型中的
目标Critic网络的参数。 最终, 实现DQ N模型的迭代优化;
其中, si为抽取的经验数据中本时刻车辆i的状态信息, ai为抽取的经验数据中本时刻
的车道选择决策, ri为根据下一时刻车辆i的状态信息si’计算的车辆动作回报, i=1,2,
3,…,n。
8.根据权利要求7所述的基于强化学习的交叉口前车辆全体车道选择方法, 其特征在
于, 所述估计值yi的计算公式为:
式中,
为目标Critic网络输出的动 作状态值函 数, maxa′为目标Critic网络输出的动
作状态值函数的最大值, γ为折扣因子, ri为车辆i的车辆动作回报, si′为抽取的经验数据
中下一时刻的车辆i的状态信息, a ′为下一时刻选取的车道选择决策,
为目标Critic网络权 利 要 求 书 2/3 页
3
CN 114360290 A
3
专利 一种基于强化学习的交叉口前车辆群体车道选择方法
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 19:52:39上传分享