说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111654923.5 (22)申请日 2021.12.3 0 (71)申请人 邓红艳 地址 100089 北京市海淀区北四环西路8 8 号 申请人 陈治湘 苏玉强 周宏升 雷祥  李德龙 叶培华 耿振余 张央檠  董冬梅 何玲玥 王奔驰 邓桂龙 (72)发明人 邓红艳 陈治湘 苏玉强 周宏升  雷祥 李德龙 叶培华 耿振余  张央檠 董冬梅 何玲玥 王奔驰  邓桂龙  (74)专利代理 机构 北京邦创至诚知识产权代理 事务所(普通 合伙) 11717 专利代理师 张宇锋(51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于逆向强化学习的智能空战奖励函 数生成方法 (57)摘要 本发明涉及一种基于逆向强化学习的智能 空战奖励函数生成方法, 其采用模仿学习训练空 对空对抗算法, 采用逆向强化学习算法确定奖励 函数; 能够确保算法设计出一个合理的奖励函 数, 保证强化学习算法的收敛与模型的效果; 此 外, 该方法具有通用性, 针对不同任务都可以自 动设计出一个奖励函数, 无需人工设计 。 权利要求书1页 说明书3页 附图1页 CN 114462569 A 2022.05.10 CN 114462569 A 1.一种基于逆向强化学习的智能空战奖励函数生成方法, 其特征在于, 该方法包括如 下步骤: S1: 神经网络的设计: 采用有2个隐含层的全连接神经网络结构, 用从传感器获取的环 境数据提取 特征, 状态空间设计如下: 1)自身战机通道 以经纬度表示自身位置的坐标, 当前位置标记为1, 其余位置标 记为0; 2)我方其他战机通道 以经纬度表示我方其他战机位置的坐标, 当前位置标记为 1, 其余位置标记为0; 3)敌方战机通道 以经纬度表示敌方战机位置的坐标, 当前位置标记为1, 其余 位置标记为0; 4)未探索区域 通道 将未探索区域标记为1, 已探索区域标记为0; 5)已探索区域 通道 将已探索区域标记未1, 未探索区域标记为0; S2: 奖励函数的生成: 学习奖励函数的目标是使得专家决策序列的奖励函数值优于强 化学习算法生成的所有决策序列的奖励函数值, 即: 其中R是要学习得到 的奖励函数, τ1,..., τN是强化学习算法生成的决策序列, 是专家生成的决策序列; 实现时, 采用最大熵模型; 优化的目标为 即, 使得专 家的决策序列的对数概 率值最大化; S3: 使用强化学习算法根据该 奖励函数搜索出最优策略: ①收集专家决策序列, 由专 家与模拟器对抗 生成; ②使用逆向强化学习算法, 确定奖励函数; ③使用强化学习算法, 与模拟器交互, 随机执行动作, 生成决策序列, 最大化奖励函数, 从而得到强化学习模型。 2.根据权利要求1所述的基于逆向强化学习的智能空战奖励函数生成方法, 其特征在 于, S1中的所述传感器为雷达 。 3.根据权利要求1所述的基于逆向强化学习的智能空战奖励函数生成方法, 其特征在 于, S1中输入层的神经元数量与状态数相同; 第1个隐含层有256个神经元, 第2个隐含层有 128个神经 元; 输出层神经 元数量与动作空间的动作数量相同。权 利 要 求 书 1/1 页 2 CN 114462569 A 2一种基于逆向强化学习的智能空战奖励函数生成方 法 技术领域 [0001]本发明涉及一种基于逆向强化学习的智能空战奖励函数生成方法。 背景技术 [0002]强化学习在空战中的应用目前已经被某些国家的研究机构探索, 典型的包括美国 DeepMind公司, 洛克希德 ‑马丁公司等。 根据已公开的材料, 这些强化学习算法均使用了人 工设计的奖励函数。 在实际的空对空或类似的对抗中, 任务的目标各异, 难以人工 设计出合 理的奖励函数。 [0003]现有的基于强化学习的空 战算法均采用了人工设计的奖励函数。 人工设计的奖励 函数主要考虑如下因素: [0004]1.对方武器的损失数量, 损失程度; [0005]2.己方武器的损失数量, 损失程度; [0006]奖励函数综合考虑对方和己方的损失, 通常采用线性加权平均的方式作为最终的 奖励函数值。 [0007]这类奖励函数存在 如下问题: [0008]1.函数难以确定, 包括损失函数的各项, 以及各项的权 重值; [0009]2.不具有通用性, 对于每 个任务都要重新设计奖励函数; [0010]3.不合适的奖励函数将导 致强化学习不收敛, 或者收敛到一个不 好的策略。 发明内容 [0011]本发明的目的在于提供了一种基于逆向强化学习的智能空战奖励函数生成方法, 从而解决人工设计的奖励函数存在的各种弊端。 [0012]为了解决上述技术问题, 本发明提供一种基于逆向强化学习的智能空 战奖励函数 生成方法, 该 方法包括如下步骤: [0013]S1: 神经网络的设计: 采用有2个隐含层的全连接神经网络结构, 用从传感器获取 的环境数据提取 特征, 状态空间设计如下: [0014]1)自身战机通道 以经纬度表示自身位置的坐标, 当前位置标记为1, 其余位 置标记为0; [0015]2)我方其他战机通道 以经纬度表示我方其他战机位置的坐标, 当前位置标 记为1, 其 余位置标记为0; [0016]3)敌方战机通道 以经纬度表示敌方战机位置的坐标, 当前位置标记为1, 其余位置标记为0; [0017]4)未探索区域 通道 将未探索区域标记为1, 已探索区域标记为0; [0018]5)已探索区域 通道 将已探索区域标记未1, 未探索区域标记为0;说 明 书 1/3 页 3 CN 114462569 A 3

.PDF文档 专利 一种基于逆向强化学习的智能空战奖励函数生成方法

文档预览
中文文档 6 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共6页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于逆向强化学习的智能空战奖励函数生成方法 第 1 页 专利 一种基于逆向强化学习的智能空战奖励函数生成方法 第 2 页 专利 一种基于逆向强化学习的智能空战奖励函数生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:55:11上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。