专利一种基于逆向强化学习的智能空战奖励函数生成方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111654923.5 (22)申请日 2021.12.3 0 (71)申请人邓红艳地址 100089 北京市海淀区北四环西路8 8 号申请人陈治湘　苏玉强　周宏升　雷祥　李德龙　叶培华　耿振余　张央檠　董冬梅　何玲玥　王奔驰　邓桂龙 (72)发明人邓红艳　陈治湘　苏玉强　周宏升　雷祥　李德龙　叶培华　耿振余　张央檠　董冬梅　何玲玥　王奔驰　邓桂龙　 (74)专利代理机构北京邦创至诚知识产权代理事务所(普通合伙) 11717 专利代理师张宇锋(51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于逆向强化学习的智能空战奖励函数生成方法 (57)摘要本发明涉及一种基于逆向强化学习的智能空战奖励函数生成方法，其采用模仿学习训练空对空对抗算法，采用逆向强化学习算法确定奖励函数；能够确保算法设计出一个合理的奖励函数，保证强化学习算法的收敛与模型的效果；此外，该方法具有通用性，针对不同任务都可以自动设计出一个奖励函数，无需人工设计。权利要求书1页说明书3页附图1页 CN 114462569 A 2022.05.10 CN 114462569 A 1.一种基于逆向强化学习的智能空战奖励函数生成方法，其特征在于，该方法包括如下步骤： S1：神经网络的设计：采用有2个隐含层的全连接神经网络结构，用从传感器获取的环境数据提取特征，状态空间设计如下： 1)自身战机通道以经纬度表示自身位置的坐标，当前位置标记为1，其余位置标记为0； 2)我方其他战机通道以经纬度表示我方其他战机位置的坐标，当前位置标记为 1，其余位置标记为0； 3)敌方战机通道以经纬度表示敌方战机位置的坐标，当前位置标记为1，其余位置标记为0； 4)未探索区域通道将未探索区域标记为1，已探索区域标记为0； 5)已探索区域通道将已探索区域标记未1，未探索区域标记为0； S2：奖励函数的生成：学习奖励函数的目标是使得专家决策序列的奖励函数值优于强化学习算法生成的所有决策序列的奖励函数值，即：其中R是要学习得到的奖励函数， τ1,..., τN是强化学习算法生成的决策序列，是专家生成的决策序列；实现时，采用最大熵模型；优化的目标为即，使得专家的决策序列的对数概率值最大化； S3：使用强化学习算法根据该奖励函数搜索出最优策略： ①收集专家决策序列，由专家与模拟器对抗生成； ②使用逆向强化学习算法，确定奖励函数； ③使用强化学习算法，与模拟器交互，随机执行动作，生成决策序列，最大化奖励函数，从而得到强化学习模型。 2.根据权利要求1所述的基于逆向强化学习的智能空战奖励函数生成方法，其特征在于， S1中的所述传感器为雷达。 3.根据权利要求1所述的基于逆向强化学习的智能空战奖励函数生成方法，其特征在于， S1中输入层的神经元数量与状态数相同；第1个隐含层有256个神经元，第2个隐含层有 128个神经元；输出层神经元数量与动作空间的动作数量相同。权　利　要　求　书 1/1 页 2 CN 114462569 A 2一种基于逆向强化学习的智能空战奖励函数生成方法技术领域 [0001]本发明涉及一种基于逆向强化学习的智能空战奖励函数生成方法。背景技术 [0002]强化学习在空战中的应用目前已经被某些国家的研究机构探索，典型的包括美国 DeepMind公司，洛克希德 ‑马丁公司等。根据已公开的材料，这些强化学习算法均使用了人工设计的奖励函数。在实际的空对空或类似的对抗中，任务的目标各异，难以人工设计出合理的奖励函数。 [0003]现有的基于强化学习的空战算法均采用了人工设计的奖励函数。人工设计的奖励函数主要考虑如下因素： [0004]1.对方武器的损失数量，损失程度； [0005]2.己方武器的损失数量，损失程度； [0006]奖励函数综合考虑对方和己方的损失，通常采用线性加权平均的方式作为最终的奖励函数值。 [0007]这类奖励函数存在如下问题： [0008]1.函数难以确定，包括损失函数的各项，以及各项的权重值； [0009]2.不具有通用性，对于每个任务都要重新设计奖励函数； [0010]3.不合适的奖励函数将导致强化学习不收敛，或者收敛到一个不好的策略。发明内容 [0011]本发明的目的在于提供了一种基于逆向强化学习的智能空战奖励函数生成方法，从而解决人工设计的奖励函数存在的各种弊端。 [0012]为了解决上述技术问题，本发明提供一种基于逆向强化学习的智能空战奖励函数生成方法，该方法包括如下步骤： [0013]S1：神经网络的设计：采用有2个隐含层的全连接神经网络结构，用从传感器获取的环境数据提取特征，状态空间设计如下： [0014]1)自身战机通道以经纬度表示自身位置的坐标，当前位置标记为1，其余位置标记为0； [0015]2)我方其他战机通道以经纬度表示我方其他战机位置的坐标，当前位置标记为1，其余位置标记为0； [0016]3)敌方战机通道以经纬度表示敌方战机位置的坐标，当前位置标记为1，其余位置标记为0； [0017]4)未探索区域通道将未探索区域标记为1，已探索区域标记为0； [0018]5)已探索区域通道将已探索区域标记未1，未探索区域标记为0；说　明　书 1/3 页 3 CN 114462569 A 3

专利 一种基于逆向强化学习的智能空战奖励函数生成方法

专利一种基于逆向强化学习的智能空战奖励函数生成方法