说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111641916.1 (22)申请日 2021.12.2 9 (71)申请人 中山大学 地址 510275 广东省广州市海珠区新港西 路135号 (72)发明人 余超 梁泽年  (74)专利代理 机构 广州三环 专利商标代理有限 公司 44202 代理人 陈旭红 钟文瀚 (51)Int.Cl. G08G 1/07(2006.01) G08G 1/01(2006.01) G06F 30/27(2020.01) (54)发明名称 一种同时考虑行程时间和公平性的交通灯 控制方法及系统 (57)摘要 本发明提供一种同时考虑行程时间和公平 性的交通灯控制方法及系统, 其中方法包括: 将 行程时间策略Q网络的结果值输入至行程时间策 略Q网络的交通仿真环境, 将公平性策略Q网络的 结果值输入至公平性策略Q网络的交通仿真环 境, 得到每个路口的奖励以及下一步的状态; 通 过DQN算法, 根据行程时间策略Q网络的元组型数 据缓存器中的数据对行程时间策略Q网络进行更 新, 根据公平性策略Q网络的元组型数据缓存器 中的数据对公平性策略Q网络进行更新; 建立中 心Q网络, 并将更新完成的行程时间策略Q网络和 更新完成的公平性策略Q网络蒸馏至中心Q网络。 本发明同时考虑路网中车辆的平均行程时间以 及公平性, 达到在行程时间相同下, 公平性更好 的效果。 权利要求书3页 说明书10页 附图2页 CN 114299732 A 2022.04.08 CN 114299732 A 1.一种同时考虑行程时间和公平性的交通灯控制方法, 其特 征在于, 包括: 建立行程时间策略Q网络的交通仿真环境、 公平性策略Q网络的交通仿真环境、 行程时 间策略Q网络的元组型 数据缓存器及公平性策略Q网络的元组型 数据缓存器; 通过DQN算法分别对所述行程时间策略Q网络及所述公平性策略Q网络进行迭代处理, 分别得到行程时间策略Q网络的结果 值及公平性策略Q网络的结果 值; 将所述行程 时间策略Q网络的结果值输入至行程 时间策略Q网络的交通仿真环境, 将 公 平性策略Q网络的结果值输入至公平 性策略Q网络的交通仿真环境, 得到每个路口的奖励以 及下一步的状态; 通过DQN算法, 根据 所述行程 时间策略Q网络的元组型数据缓存器 中的数据对所述行程 时间策略Q网络进 行更新, 根据所述 公平性策略Q网络的元 组型数据缓存器中的数据对所述 公平性策略Q网络进行 更新; 建立中心Q网络, 并将更新完成的行程时间策略Q网络和更新完成的公平性策略Q网络 蒸馏至所述中心Q网络 。 2.如权利要求1所述的一种同时考虑行程时间和公平性的交通灯控制方法, 其特征在 于, 所述建立行程时间策略Q网络的交通仿 真环境、 公平 性策略Q网络的交通仿 真环境, 具体 地: 选定交通仿真环境, 并初始化两个相同的交通仿真环境, 分别作为行程 时间策略Q网络 的交通仿 真环境和公平 性策略Q网络的交通仿 真环境; 其中, 所述交通仿 真环境包括: 路网, 交通信号灯及车辆 。 3.如权利要求1所述的一种同时考虑行程时间和公平性的交通灯控制方法, 其特征在 于, 所述行程时间策略Q网络和所述公平性策略Q网络的输入维度为52维, 输出维度为8维。 4.如权利要求1所述的一种同时考虑行程时间和公平性的交通灯控制方法, 其特征在 于, 所述通过DQN算法分别对所述行程时间策略Q网络及所述公平性策略Q网络进行迭代处 理之前, 还 包括: 通过DQN算法分别对所述行程时间策略Q网络及所述公平性策略Q网络进行冷启动处 理。 5.如权利要求4所述的一种同时考虑行程时间和公平性的交通灯控制方法, 其特征在 于, 所述冷启动处 理, 包括: 初始化仿真回合数; 设置更新间隔、 每 轮更新次数、 每回合仿真步数及缓存值。 6.如权利要求5所述的一种同时考虑行程时间和公平性的交通灯控制方法, 其特征在 于, 所述通过DQN算法分别对所述行程时间策略Q网络及所述公平性策略Q网络进行迭代处 理, 分别得到行程时间策略Q网络的结果 值及公平性策略Q网络的结果 值, 包括: 分别获取行程时间策略Q网络的交通仿真环境及公平性策略Q网络的交通仿真环境中 各个路口的交通状态, 并将行程时间策略Q网络的交通仿真环境中各个路口的交通状态输 入至行程时间策略Q网络中, 将公平 性策略Q网络的交通仿真环境中各个路口的交通状态输 入至公平性策略Q网络中, 得到行程时间策略Q 值和公平性策略Q 值; 根据ε–greedy策略选择行程时间策略Q值的最大的动作和公平性策略Q值的最大的动 作, 得到行程时间策略Q网络的结果 值及公平性策略Q网络的结果 值。权 利 要 求 书 1/3 页 2 CN 114299732 A 27.如权利要求1所述的一种同时考虑行程时间和公平性的交通灯控制方法, 其特征在 于, 所述行程时间策略Q网络的交通仿真环境中的每个路口的奖励是该路口所有进口道的 排队长度之和的相反数; 所述公平性策略Q网络的交通仿真环境中每个路口的奖励通过以 下公式计算: 其中, RFairness为公平性策略Q网络的交通仿真环境中每个路口的奖励, i表示车辆, n为 车辆总数, ttii为第i辆车的实际行程时间/已通 行路程的理想行程时间, ttimean为当前时刻 所有车辆t tii的均值。 8.如权利要求7所述的一种同时考虑行程时间和公平性的交通灯控制方法, 其特征在 于, 所述通过DQN算法, 根据所述行程时间策略Q网络的元组型数据缓存器中的数据对所述 行程时间策略Q网络进 行更新, 根据所述 公平性策略Q网络的元组型数据缓存器中的数据对 所述公平性策略Q网络进行 更新, 包括: 分别从行程时间策略Q网络的元组型数据缓存器和公平性策略Q网络的元组型数据缓 存器中各随机抽样128个样 本, 并将抽取到的样 本输入至对应的Q网络, 得到行程时间策略Q 网络的Q值分布和公平性策略Q网络的Q 值分布; 选取样本中的当前动作, 得到对应的Q 值; 将样本中的下一状态输入至对应的Q网络中, 并选取最大的Q网络作为 Qnext; 将每个路口的奖励与Qnext相加, 得到Qtarget; 重复更新过程满足更新次数。 9.如权利要求1所述的一种同时考虑行程时间和公平性的交通灯控制方法, 其特征在 于, 所述将更新完成的行程时间策略Q网络和更新完成的公平性策略Q网络蒸馏至所述中心 Q网络, 包括: 分别从行程时间策略Q网络的元组型数据缓存器中和公平性策略Q网络的元组型数据 缓存器中随机抽样128个样本分别输入至所述中心Q网络和所述行程时间策 略Q网络中, 分 别得到述中心Q网络的Q 值和行程时间策略Q网络的Q 值; 对所述中心Q网络的Q值和行程时间策略Q网络的Q值进行Softmax操作, 得到中心Q网络 的概率分布值和行程时间策略Q网络的概 率分布值; 根据中心Q网络的概率分布值和行程 时间策略Q网络的概率分布值计算KL散度, 并设置 蒸馏过程的学习率, 重复蒸馏过程满足更新次数。 10.一种同时考虑行程时间和公平性的交通灯控制系统, 其特 征在于, 包括: 建立模块, 用于建立行程时间策略Q网络的交通仿真环境、 公平性策略Q网络的交通仿 真环境、 行程时间策略Q网络的元组型数据缓存器及公平性策略Q网络的元组型数据缓存 器; 迭代模块, 用于通过DQN算法分别对所述行程时间策略Q网络及所述公平性策略Q网络 进行迭代处 理, 分别得到行程时间策略Q网络的结果 值及公平性策略Q网络的结果 值; 计算模块, 用于将所述行程 时间策略Q网络的结果值输入至行程 时间策略Q网络的交通 仿真环境, 将公平性策略Q网络的结果值输入至公平性策略Q网络的交通仿真环境, 得到每权 利 要 求 书 2/3 页 3 CN 114299732 A 3

.PDF文档 专利 一种同时考虑行程时间和公平性的交通灯控制方法及系统

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种同时考虑行程时间和公平性的交通灯控制方法及系统 第 1 页 专利 一种同时考虑行程时间和公平性的交通灯控制方法及系统 第 2 页 专利 一种同时考虑行程时间和公平性的交通灯控制方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 05:18:08上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。