说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111683837.7 (22)申请日 2021.12.2 9 (71)申请人 北京工业大 学 地址 100124 北京市朝阳区平乐园10 0号 (72)发明人 韩雨 高若云 王逸飞 袁帅  任柯燕  (74)专利代理 机构 北京思海天达知识产权代理 有限公司 1 1203 代理人 刘萍 (51)Int.Cl. G06N 20/00(2019.01) B60W 60/00(2020.01) (54)发明名称 一种基于动作约束的离线多智能体强化学 习方法 (57)摘要 本发明公开一种基于动作约束的离线多智 能体强化学习方法。 根据QMIX网络, 实现基于动 作约束的多智能体离线强化学习方法的训练; 该 方法依据在离线强化学习中将动作约束在离线 数据集中可以有效减少外推误差这一特点, 通过 变分自编码器进行动作约束, 并进一步结合中心 训练分布式执行的方法。 进而达到各智能体在训 练中仅依靠所拥有的离线数据去训练智能体, 从 而达到不需要与环境进行进一步交互和探索 的 目的。 进而提升网络训练效果, 降低多智能体算 法在离线训练下的难度。 权利要求书2页 说明书5页 附图1页 CN 114386620 A 2022.04.22 CN 114386620 A 1.一种基于动作约束的离线 多智能体强化学习方法, 其特 征在于, 包括以下步骤: 步骤(1)使用QMIX网络收集离线 多智能体缓存数据集; 步骤(2)基于数据集训练变分自编码器; 在数据集上, 使用变分自编码器训练生成模型 Gω, 学习每一个智能体局部观测状态及其执行动作的数据分布, 其中ω为生成模 型的参数, 训练后的模型参数不再 更新, 即固定 ω; 步骤(3)使用训练好的生成模型, 对动作进行采样; 步骤(4)利用高斯扰动模型对步骤(3)中得到的动作采样进行干扰, 增加约束动作的多 样性; 步骤(5)使用步骤(4)中约束过的动作, 根据局部观测和相应的动作, 利用所述估值网 络计算出每一个智能体相应的价 值; 步骤(6)将当前时刻的全局状态观测通过超网络与所有智能体的价值, 输入到所述的 混合网络进行混合, 得到全部智能体的总价 值; 步骤(7)通过最小化网络损失函数, 训练整个网络, 更新网络各部分权重及偏置参数, 网络迭代300M次 以上, 选取损失最小的一组权重及偏置参数, 作为训练完毕的离线多智能 体强化学习模型; 将训练好的离线多智能体强化学习模型应用在环境之中, 即可根据当前 环境下的各智能体局部观测, 执 行各个智能体的最高价 值策略, 做出 各智能体的最优动作。 2.如权利要求1所述的基于动作约束的离线多智能体强化学习方法, 其特征在于, 步骤 (3)(4)对应的动作约束方法, 具体为: 根据数据集B对环境中的j个智能体, 进行n组的随机采样, 并记录下每一组采样下的每 一个智能体的局 部观测状态, 即 其中 表示第i组采样中第j个智能体的局 部观测; 使用训练好的生成模型Gω, 依据各智能体局部观测生成对应的动作采样, 即 其中 第i组采样中第j个智能体的动作采样; 使用高斯扰动模型, 对采样出的动作依次进行干扰, 设高斯扰动模型为ξ; 其中ξ服从均 值为Φ标准差为1的高斯分布; 其中Φ为动作a的取值范围的均值, 即 amax为动 作空间的最大合法取值, amin为动作空间的最小合法取值; 每一组经过扰动后的动作输出为 3.如权利要求1所述的基于动作约束的离线多智能体强化学习方法, 其特征在于, 步骤 (1)对应的离线 多智能体缓存数据集B方法, 具体为: 从头训练QMIX网络, 并且记录下每个智能体, 在当前 时刻t的局部观测si, t, 执行的动作 ai, t, 以及执行动作后下一时刻观测si, t+1, 以及所有智能体拿到的当前时刻t的全局奖励值 rt; j为智能体总个数, 将t时刻的所有j个智能体的数据, 作为一个元组(s1, t, a1, t, s1, t+1, s2, t, a2, t, s2, t+1, ...sj, t, aj, t, sj, t+1, rt)存入数据集B之中; 经过t次的训练, 保存每一时刻的 所有j个智能体的动作 ‑观测数据, 构成整个数据集B; 数据集B形如公 式(1), 其中包含0时刻 即初始时刻, 和t ‑1时刻的全部智能体的动作 ‑观测及奖励数据;权 利 要 求 书 1/2 页 2 CN 114386620 A 2权 利 要 求 书 2/2 页 3 CN 114386620 A 3

.PDF文档 专利 一种基于动作约束的离线多智能体强化学习方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于动作约束的离线多智能体强化学习方法 第 1 页 专利 一种基于动作约束的离线多智能体强化学习方法 第 2 页 专利 一种基于动作约束的离线多智能体强化学习方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:28:02上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。