专利基于并行架构的内在奖励强化学习方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111598134.4 (22)申请日 2021.12.24 (71)申请人中国人民解放军军事科学院战争研究院地址 100091 北京市海淀区厢红旗东门外甲1号 (72)发明人杨思明　曹江　高原　郭洋　王平　王景　王晓楠　 (74)专利代理机构上海洞见未来专利代理有限公司 31467 代理人苗绘 (51)Int.Cl. G06N 20/00(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于并行架构的内在奖励强化学习方法 (57)摘要本发明公开了一种基于并行架构的内在奖励强化学习方法，包含如下步骤：执行模块与模拟环境交互，获取一整幕经验数据并存入缓存组件；同步学习模块的最近更新的策略；取出定量的经验数据进行评估，获得奖励值；对经验数据的状态价值函数进行估计，获得内部状态价值函数与外部状态价值函数；处理内部状态价值函数与外部状态价值函数，获得总状态价值函数并改写成近似状态价值函数；外部的智能体对预测网络的参数进行优化，并更新策略网络的当前策略，获得新策略；执行模块更新新策略。本发明解决了现有技术中价值函数估计不准、收敛到局部最优策略的缺陷，避免了优化结果出现偏差的问题，具有更高的单位时隙吞吐率、更好的性能和更快的学习速度。权利要求书2页说明书6页附图2页 CN 114266360 A 2022.04.01 CN 114266360 A 1.一种基于并行架构的内在奖励强化学习方法，其特征在于，包含如下步骤：创建若干个执行模块，所述执行模块与模拟环境进行交互，获取一整幕经验数据；创建学习模块，将所述一整幕经验数据存入所述学习模块的缓存组件中；同步学习模块的最近更新的策略；所述学习模块从所述缓存组件中取出定量的所述经验数据并对所述定量的经验数据进行评估，获得奖励值；对所述经验数据的状态价值函数进行估计，获得内部状态价值函数与外部状态价值函数；处理所述内部状态价值函数与所述外部状态价值函数，获得总状态价值函数；使用V‑trace方法并通过重要性采样的方式处理所述总状态价值函数，获得近似状态价值函数；外部的智能体使用所述学习模块的目标网络与所述学习模块的预测网络的预测均方误差作为损失函数，对所述预测网络的参数进行优化；所述智能体使用价值函数估计值(指的是V ‑(Vθi(st)+Vθe(st)))作为损失函数，并通过策略梯度方法更新所述学习模块的策略网络的当前策略，获得新策略；所述执行模块更新所述新策略。 2.如权利要求1所述基于并行架构的内在奖励强化学习方法，其特征在于，所述执行模块使用当前策略与所述模拟环境进行交互。 3.如权利要求2所述基于并行架构的内在奖励强化学习方法，其特征在于，所述经验数据包含：动作初始观测到的状态、当前执行动作，外部奖励值、环境转移到的下一个状态与终止条件。 4.如权利要求1所述基于并行架构的内在奖励强化学习方法，其特征在于，所述学习模块使用所述目标网络和所述预测网络对所述定量的经验数据进行评估，获得奖励值。 5.如权利要求1所述基于并行架构的内在奖励强化学习方法，其特征在于，处理所述内部状态价值函数与所述外部状态价值函数，获得总状态价值函数的方法为： V＝Vθ i(st)+Vθ e(st) 所述V为所述总状态价值函数，所述Vθi(st)为所述内部状态价值函数，所述Vθ e(st)为所述外部状态价值函数。 6.如权利要求1所述基于并行架构的内在奖励强化学习方法，其特征在于，处理所述总状态价值函数，获得近似状态价值函数的方法为：权　利　要　求　书 1/2 页 2 CN 114266360 A 2所述Vm为近似状态价值函数，所述V为总状态价值函数，所述sm为时隙m中的状态，所述 γ为折扣系数，所述ci为时隙i时的收敛速度调节参数，所述σtV是时隙t时的时序差分值，所述ρt是固定点调节参数，所述rt是时隙t时智能体得到的奖励值，所述at是时隙t时智能体的动作，所述 π 是动作策略，所述 μ是行为策略。 7.如权利要求1所述基于并行架构的内在奖励强化学习方法，其特征在于，所述价值函数估计值的获得方法为： Vx＝(Vi‑Vθ i(st)‑Vθ e(st))2 所述Vx为价值函数估计值，所述Vi为实际采样计算得到的价值函数值，所述Vθi(st)为所述内部状态价值函数，所述Vθ e(st)为所述外部状态价值函数。 8.如权利要求1所述基于并行架构的内在奖励强化学习方法，其特征在于，所述执行模块完成所述一幕数据的交互后对所述新策略进行更新。权　利　要　求　书 2/2 页 3 CN 114266360 A 3

专利 基于并行架构的内在奖励强化学习方法

专利基于并行架构的内在奖励强化学习方法