专利一种同时考虑行程时间和公平性的交通灯控制方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111641916.1 (22)申请日 2021.12.2 9 (71)申请人中山大学地址 510275 广东省广州市海珠区新港西路135号 (72)发明人余超　梁泽年　 (74)专利代理机构广州三环专利商标代理有限公司 44202 代理人陈旭红　钟文瀚 (51)Int.Cl. G08G 1/07(2006.01) G08G 1/01(2006.01) G06F 30/27(2020.01) (54)发明名称一种同时考虑行程时间和公平性的交通灯控制方法及系统 (57)摘要本发明提供一种同时考虑行程时间和公平性的交通灯控制方法及系统，其中方法包括：将行程时间策略Q网络的结果值输入至行程时间策略Q网络的交通仿真环境，将公平性策略Q网络的结果值输入至公平性策略Q网络的交通仿真环境，得到每个路口的奖励以及下一步的状态；通过DQN算法，根据行程时间策略Q网络的元组型数据缓存器中的数据对行程时间策略Q网络进行更新，根据公平性策略Q网络的元组型数据缓存器中的数据对公平性策略Q网络进行更新；建立中心Q网络，并将更新完成的行程时间策略Q网络和更新完成的公平性策略Q网络蒸馏至中心Q网络。本发明同时考虑路网中车辆的平均行程时间以及公平性，达到在行程时间相同下，公平性更好的效果。权利要求书3页说明书10页附图2页 CN 114299732 A 2022.04.08 CN 114299732 A 1.一种同时考虑行程时间和公平性的交通灯控制方法，其特征在于，包括：建立行程时间策略Q网络的交通仿真环境、公平性策略Q网络的交通仿真环境、行程时间策略Q网络的元组型数据缓存器及公平性策略Q网络的元组型数据缓存器；通过DQN算法分别对所述行程时间策略Q网络及所述公平性策略Q网络进行迭代处理，分别得到行程时间策略Q网络的结果值及公平性策略Q网络的结果值；将所述行程时间策略Q网络的结果值输入至行程时间策略Q网络的交通仿真环境，将公平性策略Q网络的结果值输入至公平性策略Q网络的交通仿真环境，得到每个路口的奖励以及下一步的状态；通过DQN算法，根据所述行程时间策略Q网络的元组型数据缓存器中的数据对所述行程时间策略Q网络进行更新，根据所述公平性策略Q网络的元组型数据缓存器中的数据对所述公平性策略Q网络进行更新；建立中心Q网络，并将更新完成的行程时间策略Q网络和更新完成的公平性策略Q网络蒸馏至所述中心Q网络。 2.如权利要求1所述的一种同时考虑行程时间和公平性的交通灯控制方法，其特征在于，所述建立行程时间策略Q网络的交通仿真环境、公平性策略Q网络的交通仿真环境，具体地：选定交通仿真环境，并初始化两个相同的交通仿真环境，分别作为行程时间策略Q网络的交通仿真环境和公平性策略Q网络的交通仿真环境；其中，所述交通仿真环境包括：路网，交通信号灯及车辆。 3.如权利要求1所述的一种同时考虑行程时间和公平性的交通灯控制方法，其特征在于，所述行程时间策略Q网络和所述公平性策略Q网络的输入维度为52维，输出维度为8维。 4.如权利要求1所述的一种同时考虑行程时间和公平性的交通灯控制方法，其特征在于，所述通过DQN算法分别对所述行程时间策略Q网络及所述公平性策略Q网络进行迭代处理之前，还包括：通过DQN算法分别对所述行程时间策略Q网络及所述公平性策略Q网络进行冷启动处理。 5.如权利要求4所述的一种同时考虑行程时间和公平性的交通灯控制方法，其特征在于，所述冷启动处理，包括：初始化仿真回合数；设置更新间隔、每轮更新次数、每回合仿真步数及缓存值。 6.如权利要求5所述的一种同时考虑行程时间和公平性的交通灯控制方法，其特征在于，所述通过DQN算法分别对所述行程时间策略Q网络及所述公平性策略Q网络进行迭代处理，分别得到行程时间策略Q网络的结果值及公平性策略Q网络的结果值，包括：分别获取行程时间策略Q网络的交通仿真环境及公平性策略Q网络的交通仿真环境中各个路口的交通状态，并将行程时间策略Q网络的交通仿真环境中各个路口的交通状态输入至行程时间策略Q网络中，将公平性策略Q网络的交通仿真环境中各个路口的交通状态输入至公平性策略Q网络中，得到行程时间策略Q 值和公平性策略Q 值；根据ε–greedy策略选择行程时间策略Q值的最大的动作和公平性策略Q值的最大的动作，得到行程时间策略Q网络的结果值及公平性策略Q网络的结果值。权　利　要　求　书 1/3 页 2 CN 114299732 A 27.如权利要求1所述的一种同时考虑行程时间和公平性的交通灯控制方法，其特征在于，所述行程时间策略Q网络的交通仿真环境中的每个路口的奖励是该路口所有进口道的排队长度之和的相反数；所述公平性策略Q网络的交通仿真环境中每个路口的奖励通过以下公式计算：其中， RFairness为公平性策略Q网络的交通仿真环境中每个路口的奖励， i表示车辆， n为车辆总数， ttii为第i辆车的实际行程时间/已通行路程的理想行程时间， ttimean为当前时刻所有车辆t tii的均值。 8.如权利要求7所述的一种同时考虑行程时间和公平性的交通灯控制方法，其特征在于，所述通过DQN算法，根据所述行程时间策略Q网络的元组型数据缓存器中的数据对所述行程时间策略Q网络进行更新，根据所述公平性策略Q网络的元组型数据缓存器中的数据对所述公平性策略Q网络进行更新，包括：分别从行程时间策略Q网络的元组型数据缓存器和公平性策略Q网络的元组型数据缓存器中各随机抽样128个样本，并将抽取到的样本输入至对应的Q网络，得到行程时间策略Q 网络的Q值分布和公平性策略Q网络的Q 值分布；选取样本中的当前动作，得到对应的Q 值；将样本中的下一状态输入至对应的Q网络中，并选取最大的Q网络作为 Qnext；将每个路口的奖励与Qnext相加，得到Qtarget；重复更新过程满足更新次数。 9.如权利要求1所述的一种同时考虑行程时间和公平性的交通灯控制方法，其特征在于，所述将更新完成的行程时间策略Q网络和更新完成的公平性策略Q网络蒸馏至所述中心 Q网络，包括：分别从行程时间策略Q网络的元组型数据缓存器中和公平性策略Q网络的元组型数据缓存器中随机抽样128个样本分别输入至所述中心Q网络和所述行程时间策略Q网络中，分别得到述中心Q网络的Q 值和行程时间策略Q网络的Q 值；对所述中心Q网络的Q值和行程时间策略Q网络的Q值进行Softmax操作，得到中心Q网络的概率分布值和行程时间策略Q网络的概率分布值；根据中心Q网络的概率分布值和行程时间策略Q网络的概率分布值计算KL散度，并设置蒸馏过程的学习率，重复蒸馏过程满足更新次数。 10.一种同时考虑行程时间和公平性的交通灯控制系统，其特征在于，包括：建立模块，用于建立行程时间策略Q网络的交通仿真环境、公平性策略Q网络的交通仿真环境、行程时间策略Q网络的元组型数据缓存器及公平性策略Q网络的元组型数据缓存器；迭代模块，用于通过DQN算法分别对所述行程时间策略Q网络及所述公平性策略Q网络进行迭代处理，分别得到行程时间策略Q网络的结果值及公平性策略Q网络的结果值；计算模块，用于将所述行程时间策略Q网络的结果值输入至行程时间策略Q网络的交通仿真环境，将公平性策略Q网络的结果值输入至公平性策略Q网络的交通仿真环境，得到每权　利　要　求　书 2/3 页 3 CN 114299732 A 3

专利 一种同时考虑行程时间和公平性的交通灯控制方法及系统

专利一种同时考虑行程时间和公平性的交通灯控制方法及系统