专利交通信号控制模型的训练方法及交通信号控制方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111643531.9 (22)申请日 2021.12.2 9 (71)申请人嘉兴学院地址 314000 浙江省嘉兴市秀洲区康和路 1288号光伏科创园2号 (72)发明人叶宝林　刘智敏　朱耀东　陈滨　吕勇　路义霞　 (74)专利代理机构北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 代理人刘凤 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/08(2006.01) G08G 1/07(2006.01) G08G 1/08(2006.01) (54)发明名称交通信号控制模型的训练方法及交通信号控制方法 (57)摘要本申请公开了一种交通信号控制模型训练方法及交通信号控制方法，该训练方法包括：从预设仿真环境中获取目标交叉路口的当前交通状态数据，将当前交通状态数据输入初始交通信号控制模型，获得相位动作价值空间；利用该预设智能体选取预执行相位动作，基于奖励值生成预执行相位动作对应的经验样本；针对每个预设智能体，利用该预设智能体按照所对应的探索率，从共享经验池中确定对应的目标经验样本；利用确定出的多个目标经验样本对初始交通信号控制模型进行训练，以获得训练好的目标交通信号控制模型。本申请通过，在训练过程中使用多个智能体对交通信号控制模型进行训练，减少了训练时间，从而提高了算法执行效率。权利要求书2页说明书11页附图4页 CN 114330126 A 2022.04.12 CN 114330126 A 1.一种交通信号控制模型训练方法，其特征在于，所述训练方法包括：从预设仿真环境中获取目标交叉路口的当前交通状态数据，所述预设仿真环境用于搭建交通仿真的目标区域以及所述目标交叉路口的路口环境，所述目标区域为所述目标交叉路口所在区域；将所述当前交通状态数据输入初始交通信号控制模型，获得相位动作价值空间，所述相位动作价值空间包括多个候选相位动作，每个候选相位动作用于表示在目标交叉路口处所设置的各信号灯所要执行的下一相位；针对每个预设智能体，利用该预设智能体从所述多个候选相位动作中选取预执行相位动作，并基于目标奖励函数确定针对预执行相位动作的奖励值，以基于所述奖励值生成预执行相位动作对应的经验样本；将所生成的多个经验样本存入共享经验池中；针对每个预设智能体，利用该预设智能体按照所对应的探索率，从所述共享经验池中确定对应的目标经验样本；利用确定出的多个目标经验样本对所述初始交通信号控制模型进行训练，以获得训练好的目标交通信号控制模型。 2.根据权利要求1所述的训练方法，其特征在于，所述预设仿真环境包括所述目标交叉路口在各通行方向上的行车道的数量、每个行车道的车流量、在目标交叉路口处所设置的各信号灯的相位组成；所述当前交通状态数据包括所述目标交叉路口的当前车辆信息和在目标交叉路口处所设置的各信号灯的当前相位信息，所述当前车辆信息包括在各通行方向的行车道上的当前车辆位置信息和当前车辆速度信息，所述当前相位信息用于指示所述目标交叉路口的当前放行方向和当前禁行方向。 3.根据权利要求1所述的训练方法，其特征在于，针对每个预设智能体，利用该预设智能体从所述多个候选相位动作中选取预执行相位动作的步骤包括：判断所述共享经验池中的经验样本数量是否到达第一阈值；若所述共享经验池中的经验样本数量达到第一阈值，则根据预设策略参数从所述多个候选相位动作中确定预执行相位动作；若所述共享经验池中的经验样本数量未达到第一阈值，则从所述多个候选相位动作中随机选取一个候选相位动作作为预执行相位动作。 4.根据权利要求3所述的训练方法，其特征在于，所述相位动作价值空间还包括与每个候选相位动作对应的相位动作价值；其中，根据预设策略参数从所述多个候选相位动作中确定预执行相位动作的步骤包括：生成一个随机数，将所述随机数与所述预设策略参数进行比较；若所述随机数不大于所述预设策略参数，则将最大相位动作价值对应的候选相位动作确定为预执行相位动作；若所述随机数大于所述预设策略参数，则在所述多个候选相位动作中随机选取一个候选相位动作确定为预执行相位动作。 5.根据权利要求4所述的训练方法，其特征在于，所述经验样本包括当前交通状态数权　利　要　求　书 1/2 页 2 CN 114330126 A 2据、预执行相位动作、在各信号灯执行所述预执行相位动作之后所产生的下一交通状态数据和针对预执行相位动作的奖励值；其中，通过以下方式确定与所述预执行相位动作对应的下一交通状态数据：控制在目标交叉路口处设置的各信号灯按照所述预执行相位动作进行动作；从所述预设仿真环境中获取各信号灯执行所述预执行相位动作后所产生的交通状态数据；将所获取的交通状态数据确定为下一交通状态数据。 6.根据权利要求5所述的训练方法，其特征在于，基于目标奖励函数确定针对预执行相位动作的奖励值的步骤包括：根据当前交通状态数据，确定所述目标交叉路口的每个行车道对应的当前车流量；根据下一交通状态数据，确定所述目标交叉路口的每个行车道对应的下一车流量；根据当前车流量和下一车流量，利用目标奖励函数来确定针对预执行相位动作的奖励值。 7.根据权利要求6所述的训练方法，其特征在于，所述目标奖励函数为： R(t)＝ λD(t) ‑D(t+1) 其中， R(t)表示针对预执行相位动作的奖励值， λ为数据规范化参数，随交通状态变化而变化， t表示当前采样时间， t+1表示下一采样时间， D(t)表示当前车流量， D(t+1)表示下一车流量。 8.根据权利要求5所述的训练方法，其特征在于，所述探索率的取值范围为从0至1的等差序列，其中，所述探索率的取值越大，则表示预设智能体越倾向于选取奖励值和/或相位动作价值最大的经验样本。 9.根据权利要求5所述的训练方法，其特征在于，利用确定出的多个目标经验样本对所述初始交通信号控制模型进行训练，以获得训练好的目标交通信号控制模型的步骤包括：针对每个预设智能体，确定与该预设智能体所确定的目标经验样本对应的实际相位动作价值和预测相位动作价值；针对每个预设智能体，利用该预设智能体所确定的目标经验样本对应的实际相位动作价值对预测相位动作价值进行更新；根据多个实际相位动作价值及其对应的多个预测相位动作价值，确定所述初始交通信号控制模型的损失值；利用所述损失值对所述初始交通信号控制模型的神经网络参数进行调整，以获得训练好的目标交通信号控制模型。 10.一种交通信号控制方法，其特征在于，包括：获取目标交叉路口的实际交通状态数据；将所述实际交通状态数据输入目标交通信号控制模型，获得在目标交叉路口处所设置的各信号灯所要执行的下一相位，其中，所述目标交通信号控制模型为通过如权利要求 1‑9 中任一项所述的训练方法获得的交通信号控制模型。权　利　要　求　书 2/2 页 3 CN 114330126 A 3

专利 交通信号控制模型的训练方法及交通信号控制方法

专利交通信号控制模型的训练方法及交通信号控制方法