说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111598134.4 (22)申请日 2021.12.24 (71)申请人 中国人民解 放军军事科学院战争研 究院 地址 100091 北京市海淀区厢红旗 东门外 甲1号 (72)发明人 杨思明 曹江 高原 郭洋 王平  王景 王晓楠  (74)专利代理 机构 上海洞见 未来专利代理有限 公司 31467 代理人 苗绘 (51)Int.Cl. G06N 20/00(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于并行架构的内在奖励强化学习方法 (57)摘要 本发明公开了一种基于并行架构的内在奖 励强化学习方法, 包含如下步骤: 执行模块与模 拟环境交互, 获取一整幕经验数据并存入缓存组 件; 同步学习模块的最近更新的策略; 取出定量 的经验数据进行评估, 获得奖励值; 对经验数据 的状态价值函数进行估计, 获得内部状态价值函 数与外部状态 价值函数; 处理 内部状态价值函数 与外部状态 价值函数, 获得总状态 价值函数并改 写成近似状态 价值函数; 外部的智能体对预测网 络的参数进行优化, 并更新策略网络的当前策 略, 获得新策略; 执行模块更新新策略。 本发明解 决了现有技术中价值函数估计不准、 收敛到局部 最优策略的缺陷, 避免了优化结果出现偏差的问 题, 具有更高的单位时隙吞吐率、 更好的性能和 更快的学习速度。 权利要求书2页 说明书6页 附图2页 CN 114266360 A 2022.04.01 CN 114266360 A 1.一种基于并行架构的内在奖励强化学习方法, 其特 征在于, 包 含如下步骤: 创建若干个执 行模块, 所述执 行模块与模拟环境进行交 互, 获取一整幕经验数据; 创建学习模块, 将所述 一整幕经验数据存 入所述学习模块的缓存组件中; 同步学习模块的最近更新的策略; 所述学习模块从所述缓存组件中取出定量的所述经验数据并对所述定量的经验数据 进行评估, 获得 奖励值; 对所述经验数据的状态价值函数进行估计, 获得内部状态价值函数与外部状态价值函 数; 处理所述内部状态价 值函数与所述外 部状态价 值函数, 获得总状态价 值函数; 使用V‑trace方法并通过重要性采样的方式处理所述总状态价值函数, 获得近似状态 价值函数; 外部的智能体使用所述学习模块的目标网络与所述学习模块的预测网络的预测均方 误差作为损失函数, 对所述预测网络的参数进行优化; 所述智能体使用价值函数估计值(指的是V ‑(Vθi(st)+Vθe(st)))作为损失函数, 并通 过策略梯度方法更新所述学习模块的策略网络的当前 策略, 获得新策略; 所述执行模块更新所述 新策略。 2.如权利要求1所述基于并行架构的内在奖励强化学习方法, 其特征在于, 所述执行模 块使用当前 策略与所述模拟环境进行交 互。 3.如权利要求2所述基于并行架构的内在奖励强化学习方法, 其特征在于, 所述经验数 据包含: 动作初始观测到的状态、 当前执行动作, 外部奖励值、 环境转移到的下一个状态与 终止条件。 4.如权利要求1所述基于并行架构的内在奖励强化学习方法, 其特征在于, 所述学习 模 块使用所述目标网络和所述预测网络对所述定量的经验数据进行评估, 获得 奖励值。 5.如权利要求1所述基于并行架构的内在奖励强化学习方法, 其特征在于, 处理所述内 部状态价 值函数与所述外 部状态价 值函数, 获得总状态价 值函数的方法为: V=Vθ i(st)+Vθ e(st) 所述V为所述总状态价值函数, 所述Vθi(st)为所述内部状态价值函数, 所述Vθ e(st)为所 述外部状态价 值函数。 6.如权利要求1所述基于并行架构的内在奖励强化学习方法, 其特征在于, 处理所述总 状态价值函数, 获得近似状态价 值函数的方法为:权 利 要 求 书 1/2 页 2 CN 114266360 A 2所述Vm为近似状态价值函数, 所述V为总 状态价值函数, 所述sm为时隙m中的状态, 所述 γ为折扣系数, 所述ci为时隙i时的收敛速度调节参 数, 所述σtV是时隙t时的时序差分值, 所 述ρt是固定点调节参数, 所述rt是时隙t时智能体得到的奖励值, 所述at是时隙t时智能体的 动作, 所述 π 是动作策略, 所述 μ是 行为策略。 7.如权利要求1所述基于并行架构的内在奖励强化学习方法, 其特征在于, 所述价值函 数估计值的获得 方法为: Vx=(Vi‑Vθ i(st)‑Vθ e(st))2 所述Vx为价值函数估计值, 所述Vi为实际采样计算得到的价值函数值, 所述Vθi(st)为所 述内部状态价 值函数, 所述Vθ e(st)为所述外 部状态价 值函数。 8.如权利要求1所述基于并行架构的内在奖励强化学习方法, 其特征在于, 所述执行模 块完成所述 一幕数据的交 互后对所述 新策略进行 更新。权 利 要 求 书 2/2 页 3 CN 114266360 A 3

.PDF文档 专利 基于并行架构的内在奖励强化学习方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于并行架构的内在奖励强化学习方法 第 1 页 专利 基于并行架构的内在奖励强化学习方法 第 2 页 专利 基于并行架构的内在奖励强化学习方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 23:16:52上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。