说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211503787.4 (22)申请日 2022.11.29 (71)申请人 南京鼎尔特 科技有限公司 地址 210000 江苏省南京市 鼓楼区浦江路 26号5层 (72)发明人 纪宇昕  (74)专利代理 机构 南京中擎科智知识产权代理 事务所(普通 合伙) 32549 专利代理师 黄智明 (51)Int.Cl. H04W 52/24(2009.01) H04W 72/04(2009.01) H04W 72/08(2009.01) H04W 4/46(2018.01) H04W 4/44(2018.01)G06K 9/62(2022.01) (54)发明名称 一种基于多智能体深度强化学习的车联网 资源分配方法 (57)摘要 本发明提出了一种基于多智能体深度强化 学习的车联网资源分配方法, 该方法将C ‑V2X架 构下车联网的数据传输链路分为用于安全数据 传输的V2V链路和用于娱乐数据传输的V2I链路; 并以每个V2V链路作为一个智能体, 训练基于多 智能体深度强化学习的车联网资源分配模型; 所 述车联网资源分配模型基于Dueling  DQN和 Double DQN的D3QN混合架构, 针对C ‑V2X架构下 侧链接口和蜂窝接口的通信, 以最大化周期性安 全数据传输成功率和娱乐带宽容量为优化目标 进行资源分配, 可以有效解决车辆频谱分配和功 率选择的联合资源分配问题, 提供高可靠、 低时 延和大带宽的车辆资源分配方案 。 权利要求书3页 说明书9页 附图2页 CN 115551065 A 2022.12.30 CN 115551065 A 1.一种基于多智能体深度强化学习的车 联网资源分配方法, 其特 征在于包括 步骤: (1) 将C‑V2X架构下车联网的数据传输链路分为用于安全数据传输的V2V链路和用于娱 乐数据传输的V 2I链路; (2) 训练基于多智能体深度强化学习的车联网资源分配模型; 所述车联网资源分配模 型中, 每个V2V链路作为一个智能体, 所述智能体对周围环境和链路的观测数据集合作为状 态空间, 所述智能体能够选择 的频谱子带和发射功率的所有组合作为动作 空间, 奖励值函 数为以最大化V2V链路安全数据传输成功率和所有V2I链路 的信道总容量为目的的目标函 数; (3) 车辆在行驶途中, 将相应智能体对周围环境和链路的观测数据输入所述车联网资 源分配模型, 根据所述车联网资源分配模型输出 的Q值选取当前状态对应的奖励值最大 的 动作, 得到最优的频谱子带和功率组合。 2.根据权利要求1所述的车 联网资源分配方法, 其特 征在于, 所述状态空间表示 为: 其中, 表示第n条V2V链路的信道增益, 表示第m个V2I频谱子带上第 个V2V发射机到第 n个接收机之间的干扰信道, 表示第n个V2V链路到第 m个V2I链 路的干扰功率, 表示第m个V2I频谱子带上从第 m个V2I发射机到第 n个V2V接收机 的干扰信道, 代表第n条V2V链路下剩余传输数据的大小, 表示剩余传输限制时间, 是使用相同频谱子带的所有V2V链路和相应的V2I链路的干扰总功率增益, , , , 表示V2V链路的总数, 表示V2I链路的 总数。 3.根据权利要求2所述的车联网资源分配方法, 其特征在于, 所述奖励值函数的构建方 法为: 1) 将安全数据传输过程分成传输未完毕和传输完毕两种情况来构建第一子目标奖励 函数; 传输未完毕状态下的第一子目标 奖励函数表达式为: 其中, 表示第n个V2V链路中每个时隙 t的奖励值, 是一个控制值范围的常数, 使得在传输未完毕状态下, 相应代理会根据当前传输速度获得奖励; 表示频谱分 配判断因子, 表示第n个V2V链路使用第 m个V2I链路的频谱来传递数据,权 利 要 求 书 1/3 页 2 CN 115551065 A 2表示第n个V2V链路未启用第 m个V2I链路的频谱; 表示第m条V2V链路 在时隙t的信道容 量; 传输完毕后, 第一子目标 奖励函数为 一个常数 奖励值 ; 2) 基于最大化所有V2I链路的信道总容量的目的, 将每个时隙 t内所有车辆和基站之间 的V2I链路容 量作为第二子目标 奖励函数, 表达示 为: 其中, 表示时隙 t下第m条V2I链路的信道容 量; 3) 基于所述第一子目标函数和所述第二子目标奖励函数构建所述奖励值函数的表达 式: 其中, 表示在时隙 下的奖励值, 是训练时用于平衡V2I和V2V 的加权参数, 和 是与通信链接数相关的常数。 4.根据权利要求1至3任意一项所述的车联网资源分配方法, 其特征在于, 所述车联网 资源分配模型采用D3Q N网络结构。 5.根据权利要求3所述的车联网资源分配方法, 其特征在于, 所述车联网资源分配模型 的训练方法包括 步骤: S1、 为所述智能体构建记忆池; 确定传输阈值 T, 对于所述传输时间阈值 内的每一个时 间步, 所述记忆池分别存储训练所需的状态空间数据、 动作空间数据、 奖励值以及根据动作 选择策略选择不同动作带来的状态空间变化数据; S2、 当所述记忆池内所存储的数据超过预设数量阈值时, 所述智能体从自 己的记忆池 中取出小批量的样本并经过白归一化后输入所述车联网资源分配模型, 所述车联网资源分 配模型基于最小平方误差来学习 所述样本, 并使用随机梯度下降的方法更新网络参数; 重 复训练D次, 直至满足预设的收敛 条件。 6.根据权利要求5所述的车联网资源分配方法, 其特征在于, 所述记忆池中, 还引入了 低维指纹, 以消除采样数据的年龄问题并平 滑拟合结果。 7.根据权利要求6所述的车联网资源分配方法, 其特征在于, 所述低维指纹为训练回合 数 和贪婪参数 , 引入所述低维指纹后, 所述记 忆池表示 为: 其中, 表示记忆池, 表示状态空间数据, 表示动作空间数据,权 利 要 求 书 2/3 页 3 CN 115551065 A 3

.PDF文档 专利 一种基于多智能体深度强化学习的车联网资源分配方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多智能体深度强化学习的车联网资源分配方法 第 1 页 专利 一种基于多智能体深度强化学习的车联网资源分配方法 第 2 页 专利 一种基于多智能体深度强化学习的车联网资源分配方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:41:20上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。