说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111643531.9 (22)申请日 2021.12.2 9 (71)申请人 嘉兴学院 地址 314000 浙江省嘉兴 市秀洲区康和路 1288号光伏科创园2号 (72)发明人 叶宝林 刘智敏 朱耀东 陈滨  吕勇 路义霞  (74)专利代理 机构 北京超凡宏宇专利代理事务 所(特殊普通 合伙) 11463 代理人 刘凤 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/08(2006.01) G08G 1/07(2006.01) G08G 1/08(2006.01) (54)发明名称 交通信号控制模型的训练方法及交通信号 控制方法 (57)摘要 本申请公开了一种交通信号控制模型训练 方法及交通信号控制方法, 该训练方法包括: 从 预设仿真环境中获取目标交叉路口的当前交通 状态数据, 将当前交通状态数据输入初始交通信 号控制模型, 获得相位动作价值空间; 利用该预 设智能体选取预执行相位动作, 基于奖励值生成 预执行相位动作对应的经验样 本; 针对每个预设 智能体, 利用该预设智能体按照所对应的探索 率, 从共享经验池中确定对应的目标经验样本; 利用确定出的多个目标经验样本对初始交通信 号控制模型进行训练, 以获得训练好的目标交通 信号控制模型。 本申请通过, 在训练过程中使用 多个智能体对交通信号控制模型进行训练, 减少 了训练时间, 从而提高了算法执 行效率。 权利要求书2页 说明书11页 附图4页 CN 114330126 A 2022.04.12 CN 114330126 A 1.一种交通信号控制模型训练方法, 其特 征在于, 所述训练方法包括: 从预设仿真环境中获取目标交叉路口的当前交通状态数据, 所述预设仿真环境用于搭 建交通仿真的目标区域以及所述目标 交叉路口的路口环境, 所述目标区域为所述目标 交叉 路口所在区域; 将所述当前交通状态数据输入初始交通信号控制模型, 获得相位动作价值空间, 所述 相位动作价值空间包括多个候选相位动作, 每个候选相位动作用于表示在目标交叉路口处 所设置的各信号灯所要执 行的下一相位; 针对每个预设智能体, 利用该预设智能体从所述多个候选相位动作中选取预执行相位 动作, 并基于目标奖励函数确定针对预执行相位动作的奖励值, 以基于所述奖励值生成预 执行相位动作对应的经验样本; 将所生成的多个经验样本存 入共享经验 池中; 针对每个预设智能体, 利用该预设智能体按照所对应的探索率, 从所述共享经验池中 确定对应的目标 经验样本; 利用确定出的多个目标经验样本对所述初始交通信号控制模型进行训练, 以获得训练 好的目标交通信号控制模型。 2.根据权利要求1所述的训练方法, 其特征在于, 所述预设仿真环境包括所述目标交叉 路口在各通行方向上 的行车道的数量、 每个行车道的车流量、 在目标交叉路口处所设置的 各信号灯的相位组成; 所述当前交通状态数据包括所述目标交叉路口的当前车辆信息和在目标交叉路口处 所设置的各信号灯的当前相位信息, 所述当前车辆信息包括在各通行方向的行车道上的当 前车辆位置信息和当前车辆速度信息, 所述当前相位信息用于指示所述目标 交叉路口的当 前放行方向和当前禁行 方向。 3.根据权利要求1所述的训练方法, 其特征在于, 针对每个预设智能体, 利用该预设智 能体从所述多个候选相位动作中选取 预执行相位动作的步骤 包括: 判断所述共享经验 池中的经验样本数量是否 到达第一阈值; 若所述共享经验池中的经验样本数量达到第 一阈值, 则根据预设策略参数从所述多个 候选相位动作中确定预 执行相位动作; 若所述共享经验池中的经验样本数量未达到第 一阈值, 则从所述多个候选相位动作中 随机选取一个候选相位动作 作为预执行相位动作。 4.根据权利要求3所述的训练方法, 其特征在于, 所述相位动作价值空间还包括与每个 候选相位动作对应的相位动作价 值; 其中, 根据预设策略参数从所述多个候选相位动作中确定预执行相位动作的步骤包 括: 生成一个随机数, 将所述随机数与所述预设策略参数进行比较; 若所述随机数不大于所述预设策略参数, 则将最大相位动作价值对应的候选相位动作 确定为预 执行相位动作; 若所述随机数大于所述预设策略参数, 则在所述多个候选相位动作中随机选取一个候 选相位动作确定为预 执行相位动作。 5.根据权利要求4所述的训练方法, 其特征在于, 所述经验样本包括当前交通状态数权 利 要 求 书 1/2 页 2 CN 114330126 A 2据、 预执行相位动作、 在各信号灯执行所述预执行相位动作之后所产生的下一交通状态数 据和针对预 执行相位动作的奖励值; 其中, 通过以下 方式确定与所述预 执行相位动作对应的下一交通状态数据: 控制在目标交叉路口处设置的各信号灯按照所述预 执行相位动作进行动作; 从所述预设仿真环境中获取各信号灯执行所述预执行相位动作后所产生的交通状态 数据; 将所获取的交通状态数据确定为下一交通状态数据。 6.根据权利要求5所述的训练方法, 其特征在于, 基于目标奖励函数确定针对预执行相 位动作的奖励值的步骤 包括: 根据当前交通状态数据, 确定所述目标交叉路口 的每个行车道对应的当前 车流量; 根据下一交通状态数据, 确定所述目标交叉路口 的每个行车道对应的下一车流 量; 根据当前车流量和下一车流量, 利用目标奖励函数来确定针对预执行相位动作的奖励 值。 7.根据权利要求6所述的训练方法, 其特 征在于, 所述目标 奖励函数为: R(t)= λD(t) ‑D(t+1) 其中, R(t)表示针对预执行相位动作的奖励值, λ为数据规范化参数, 随交通状态变化 而变化, t表示当前采样时间, t+1表示下一采样时间, D(t)表示当前车流量, D(t+1)表示下 一车流量。 8.根据权利要求5所述的训练方法, 其特征在于, 所述探索率的取值范围为从0至1的等 差序列, 其中, 所述探索率的取值越大, 则表示预设智能体越倾向于选取奖励值和/或相位动作 价值最大的经验样本 。 9.根据权利要求5所述的训练方法, 其特征在于, 利用确定出的多个目标经验样本对所 述初始交通信号控制模型进行训练, 以获得训练好的目标交通信号控制模型的步骤 包括: 针对每个预设智能体, 确定与该预设智能体所确定的目标经验样本对应的实际相位动 作价值和预测相位动作价 值; 针对每个预设智能体, 利用该预设智能体所确定的目标经验样本对应的实际相位动作 价值对预测相位动作价 值进行更新; 根据多个实际相位动作价值及其对应的多个预测相位动作价值, 确定所述初始交通信 号控制模型的损失值; 利用所述损失值对所述初始 交通信号控制模型的神经网络参数进行调整, 以获得训练 好的目标交通信号控制模型。 10.一种交通信号控制方法, 其特 征在于, 包括: 获取目标交叉路口 的实际交通状态数据; 将所述实际交通状态数据输入目标交通信号控制模型, 获得在目标交叉路口处所设置 的各信号灯所要 执行的下一相位, 其中, 所述目标交通信号控制模型为通过如权利要求 1‑9 中任一项所述的训练方法获得的交通信号控制模型。权 利 要 求 书 2/2 页 3 CN 114330126 A 3

.PDF文档 专利 交通信号控制模型的训练方法及交通信号控制方法

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 交通信号控制模型的训练方法及交通信号控制方法 第 1 页 专利 交通信号控制模型的训练方法及交通信号控制方法 第 2 页 专利 交通信号控制模型的训练方法及交通信号控制方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:55:44上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。