专利基于深度强化学习的飞行器时间协同制导方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202110256808.6 (22)申请日 2021.03.09 (71)申请人北京理工大学地址 100081 北京市海淀区中关村南大街5 号 (72)发明人王江　刘子超　何绍溟　侯淼　王鹏　 (74)专利代理机构北京康思博达知识产权代理事务所(普通合伙) 11426 专利代理师刘冬梅　范国锋 (51)Int.Cl. F42B 15/01(2006.01) G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于深度强化学习的飞行器时间协同制导方法 (57)摘要本发明公开了一种基于深度强化学习的飞行器时间协同制导方法，所述方法通过深度强化学习模型根据飞行器的飞行状态输出偏置项at，基于偏置比例导引的形式得到新的制导指令am，最后根据制导指令am对飞行器控制系统进行控制。本发明提供的基于深度强化学习的飞行器时间协同制导方法，选取的输入状态为当前速度、当前速度方向、当前位置以及剩余飞行时间误差，映射关系合理，使用深度强化学习拟合这一映射关系的可行性高。权利要求书3页说明书11页附图5页 CN 115046433 A 2022.09.13 CN 115046433 A 1.一种基于深度强化学习的飞行器时间协同制导方法，所述方法通过深度强化学习模型输出偏置项ab，基于偏置比例导引的形式得到新的制导指令am，最后根据制导指令am对飞行器控制系统进行控制；所述制导指令am通过下式(一)获得：其中， am表示制导指令， v表示飞行器的绝对速度， λ表示弹目视线角，表示弹目视线角的变化率， ab表示偏置项。 2.根据权利要求1所述的方法，其特征在于，所述偏置项ab通过以下步骤获得：步骤1，设计仿真飞行试验，训练得到深度强化学习模型；步骤2，对深度强化学习模型进行测试；步骤3，飞行器飞行时，使用测试通过的深度强化学习模型获得偏置项ab，基于偏置比例导引的形式得到新的制导指令am，最后根据制导指令am对飞行器控制系统进行控制。 3.根据权利要求2所述的方法，其特征在于，在步骤1中，所述深度强化学习模型优选通过近端策略优化方法(P PO)进行学习；优选地，所述步骤1包括以下子步骤：步骤1‑1，根据飞行器模型设计仿真飞行试验；步骤1‑2，设计深度强化学习模型的结构与参数，训练得到深度强化学习模型。 4.根据权利要求3所述的方法，其特征在于，所述步骤1‑1包括以下子步骤： 1‑1‑1，通过飞行器的风洞试验获得飞行器的气动参数与参考面积； 1‑1‑2，根据飞行器的运动微分方程组设计飞行器仿真模型，获得飞行器的飞行状态s； 1‑1‑3，以偏置比例导引律为制导律，部署深度强化学习模型与飞行器仿真模型的接口，所述接口包括飞行器状态到深度强化学习模型的接口、深度强化学习模型到偏置比例导引的偏置项的接口、以及训练深度强化学习模型时飞行器给出的奖励值接口。 5.根据权利要求3所述的方法，其特征在于，所述步骤1‑2包括以下子步骤：步骤1‑2‑1，深度强化学习模型根据飞行器的飞行状态输出偏置项ab至飞行器仿真模型；步骤1‑2‑2，采集深度强化学习模型与飞行器仿真模型交互的数据，并存储至经验池中；步骤1‑2‑3，使用经验池中的数据改进深度强化学习模型输出的偏置项ab。 6.根据权利要求3所述的方法，其特征在于，步骤1‑2‑2中，所述深度强化学习模型与飞行器仿真模型交互的数据为元素组(st， at， rt)；其中， st表示飞行器在t时刻的飞行状态； at表示深度强化学习模型在t时刻输出的偏置项； rt表示飞行器在t时刻执行偏置项at后环境给出的奖励。 7.根据权利要求6所述的方法，其特征在于，权　利　要　求　书 1/3 页 2 CN 115046433 A 2所述rt根据下式获得：其中， td表示期望飞行时间， tf表示实际飞行时间； R表示弹目距离； c1表示飞行时间奖励的归一化参数，设置为常数100； c2表示弹目距离奖励的归一化参数，设置为常数10 000。 8.根据权利要求5所述的方法，其特征在于，所述深度强化学习模型包括两个不同的神经网络：策略网络和评价网络；所述策略网络以飞行状态s为输入，偏置项ab为输出；所述评价网络以飞行状态s为输入，状态s的状态值函数Vπ(s)为输出；其中，优势函数为用于改进策略网络，所述优势函数通过下式得到：其中， k为奖励的个数， Vπ表示状态值函数， rt表示t时刻的奖励， rt+1表示t+1时刻的奖励， rt+2表示t+2时刻的奖励，依此类推rt+k‑1表示t+k‑1时刻的奖励， γ 为折扣因子，设置为常数0.99。 9.根据权利要求5所述的方法，其特征在于，所述策略网络的目标函数为：其中， ω表示策略网络中权重w1和偏移量b1的集合， ω＝{w1， b1}； w1表示策略网络中全连接层的权重， b1表示策略网络中全连接层的偏移量； rt(ω)表示改进策略与旧策略之间的比率， clip为剪切函数， ∈为约束策略网络更新幅度的剪切参数； Ns为经验池的容量；表示基于旧策略生成奖励值求得的优势函数；所述评价网络的目标函数为其中， ξ表示评价网络中权重w2和偏移量b2的集合， ξ ＝{w2， b2}； At(st， at)表示评价网络中的优势函数；当交互次数N＝Ns时，表示经验池饱和，所述ω和 ξ 根据下式进行更新：权　利　要　求　书 2/3 页 3 CN 115046433 A 3

专利 基于深度强化学习的飞行器时间协同制导方法

专利基于深度强化学习的飞行器时间协同制导方法