专利一种基于多智能体深度强化学习的车联网资源分配方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211503787.4 (22)申请日 2022.11.29 (71)申请人南京鼎尔特科技有限公司地址 210000 江苏省南京市鼓楼区浦江路 26号5层 (72)发明人纪宇昕　 (74)专利代理机构南京中擎科智知识产权代理事务所(普通合伙) 32549 专利代理师黄智明 (51)Int.Cl. H04W 52/24(2009.01) H04W 72/04(2009.01) H04W 72/08(2009.01) H04W 4/46(2018.01) H04W 4/44(2018.01)G06K 9/62(2022.01) (54)发明名称一种基于多智能体深度强化学习的车联网资源分配方法 (57)摘要本发明提出了一种基于多智能体深度强化学习的车联网资源分配方法，该方法将C ‑V2X架构下车联网的数据传输链路分为用于安全数据传输的V2V链路和用于娱乐数据传输的V2I链路；并以每个V2V链路作为一个智能体，训练基于多智能体深度强化学习的车联网资源分配模型；所述车联网资源分配模型基于Dueling DQN和 Double DQN的D3QN混合架构，针对C ‑V2X架构下侧链接口和蜂窝接口的通信，以最大化周期性安全数据传输成功率和娱乐带宽容量为优化目标进行资源分配，可以有效解决车辆频谱分配和功率选择的联合资源分配问题，提供高可靠、低时延和大带宽的车辆资源分配方案。权利要求书3页说明书9页附图2页 CN 115551065 A 2022.12.30 CN 115551065 A 1.一种基于多智能体深度强化学习的车联网资源分配方法，其特征在于包括步骤：（1）将C‑V2X架构下车联网的数据传输链路分为用于安全数据传输的V2V链路和用于娱乐数据传输的V 2I链路；（2）训练基于多智能体深度强化学习的车联网资源分配模型；所述车联网资源分配模型中，每个V2V链路作为一个智能体，所述智能体对周围环境和链路的观测数据集合作为状态空间，所述智能体能够选择的频谱子带和发射功率的所有组合作为动作空间，奖励值函数为以最大化V2V链路安全数据传输成功率和所有V2I链路的信道总容量为目的的目标函数；（3）车辆在行驶途中，将相应智能体对周围环境和链路的观测数据输入所述车联网资源分配模型，根据所述车联网资源分配模型输出的Q值选取当前状态对应的奖励值最大的动作，得到最优的频谱子带和功率组合。 2.根据权利要求1所述的车联网资源分配方法，其特征在于，所述状态空间表示为：其中，表示第n条V2V链路的信道增益，表示第m个V2I频谱子带上第个V2V发射机到第 n个接收机之间的干扰信道，表示第n个V2V链路到第 m个V2I链路的干扰功率，表示第m个V2I频谱子带上从第 m个V2I发射机到第 n个V2V接收机的干扰信道，代表第n条V2V链路下剩余传输数据的大小，表示剩余传输限制时间，是使用相同频谱子带的所有V2V链路和相应的V2I链路的干扰总功率增益，，，，表示V2V链路的总数，表示V2I链路的总数。 3.根据权利要求2所述的车联网资源分配方法，其特征在于，所述奖励值函数的构建方法为： 1）将安全数据传输过程分成传输未完毕和传输完毕两种情况来构建第一子目标奖励函数；传输未完毕状态下的第一子目标奖励函数表达式为：其中，表示第n个V2V链路中每个时隙 t的奖励值，是一个控制值范围的常数，使得在传输未完毕状态下，相应代理会根据当前传输速度获得奖励；表示频谱分配判断因子，表示第n个V2V链路使用第 m个V2I链路的频谱来传递数据，权　利　要　求　书 1/3 页 2 CN 115551065 A 2表示第n个V2V链路未启用第 m个V2I链路的频谱；表示第m条V2V链路在时隙t的信道容量；传输完毕后，第一子目标奖励函数为一个常数奖励值； 2）基于最大化所有V2I链路的信道总容量的目的，将每个时隙 t内所有车辆和基站之间的V2I链路容量作为第二子目标奖励函数，表达示为：其中，表示时隙 t下第m条V2I链路的信道容量； 3）基于所述第一子目标函数和所述第二子目标奖励函数构建所述奖励值函数的表达式：其中，表示在时隙下的奖励值，是训练时用于平衡V2I和V2V 的加权参数，和是与通信链接数相关的常数。 4.根据权利要求1至3任意一项所述的车联网资源分配方法，其特征在于，所述车联网资源分配模型采用D3Q N网络结构。 5.根据权利要求3所述的车联网资源分配方法，其特征在于，所述车联网资源分配模型的训练方法包括步骤： S1、为所述智能体构建记忆池；确定传输阈值 T，对于所述传输时间阈值内的每一个时间步，所述记忆池分别存储训练所需的状态空间数据、动作空间数据、奖励值以及根据动作选择策略选择不同动作带来的状态空间变化数据； S2、当所述记忆池内所存储的数据超过预设数量阈值时，所述智能体从自己的记忆池中取出小批量的样本并经过白归一化后输入所述车联网资源分配模型，所述车联网资源分配模型基于最小平方误差来学习所述样本，并使用随机梯度下降的方法更新网络参数；重复训练D次，直至满足预设的收敛条件。 6.根据权利要求5所述的车联网资源分配方法，其特征在于，所述记忆池中，还引入了低维指纹，以消除采样数据的年龄问题并平滑拟合结果。 7.根据权利要求6所述的车联网资源分配方法，其特征在于，所述低维指纹为训练回合数和贪婪参数，引入所述低维指纹后，所述记忆池表示为：其中，表示记忆池，表示状态空间数据，表示动作空间数据，权　利　要　求　书 2/3 页 3 CN 115551065 A 3

专利 一种基于多智能体深度强化学习的车联网资源分配方法

专利一种基于多智能体深度强化学习的车联网资源分配方法