说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202110256808.6 (22)申请日 2021.03.09 (71)申请人 北京理工大 学 地址 100081 北京市海淀区中关村南大街5 号 (72)发明人 王江 刘子超 何绍溟 侯淼  王鹏  (74)专利代理 机构 北京康思博达知识产权代理 事务所(普通 合伙) 11426 专利代理师 刘冬梅 范国锋 (51)Int.Cl. F42B 15/01(2006.01) G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于深度强化学习的飞行器时间协同制导 方法 (57)摘要 本发明公开了一种基于深度强化学习的飞 行器时间协同制导方法, 所述方法通过深度强化 学习模型根据飞行器的飞行状态输出偏置项at, 基于偏置比例导引的形式得到新的制导指令am, 最后根据制导指令am对飞行器控制系统进行控 制。 本发明提供的基于深度强化学习的飞行器时 间协同制导方法, 选取的输入状态为当前速度、 当前速度方向、 当前位置以及剩余飞行时间误 差, 映射关系合理, 使用 深度强化学习拟合这一 映射关系的可 行性高。 权利要求书3页 说明书11页 附图5页 CN 115046433 A 2022.09.13 CN 115046433 A 1.一种基于深度强化学习的飞行器时间协同制导方法, 所述方法通过深度强化学习 模 型输出偏 置项ab, 基于偏置比例导引的形式得到新的制导指 令am, 最后根据制导指令am对飞 行器控制系统进行控制; 所述制导指令am通过下式(一)获得: 其中, am表示制导指令, v表示飞行器的绝对速度, λ表示弹目视线角, 表示弹目视线角 的变化率, ab表示偏置项。 2.根据权利要求1所述的方法, 其特 征在于, 所述偏置项ab通过以下步骤获得: 步骤1, 设计仿真飞行 试验, 训练得到深度强化学习模型; 步骤2, 对深度强化学习模型进行测试; 步骤3, 飞行器飞行时, 使用测试通过的深度强化学习模型 获得偏置项ab, 基于偏置比例 导引的形式得到新的制导指令am, 最后根据制导指令am对飞行器控制系统进行控制。 3.根据权利要求2所述的方法, 其特 征在于, 在步骤1中, 所述深度强化学习模型优选通过近端策略优化方法(P PO)进行学习; 优选地, 所述 步骤1包括以下子步骤: 步骤1‑1, 根据飞行器模型设计仿真飞行 试验; 步骤1‑2, 设计深度强化学习模型的结构与参数, 训练得到深度强化学习模型。 4.根据权利要求3所述的方法, 其特 征在于, 所述步骤1‑1包括以下子步骤: 1‑1‑1, 通过飞行器的风洞试验获得飞行器的气动参数与参 考面积; 1‑1‑2, 根据飞行器的运动微分方程组设计飞行器仿真模型, 获得飞行器的飞行状态s; 1‑1‑3, 以偏置比例导引律为制导律, 部署深度强化学习模型与飞行器仿真模型的接 口, 所述接口包括飞行器状态到深度强化学习模型 的接口、 深度强化学习模型到偏置比例 导引的偏置项的接口、 以及训练深度强化学习模型时飞行器给 出的奖励值接口。 5.根据权利要求3所述的方法, 其特 征在于, 所述步骤1‑2包括以下子步骤: 步骤1‑2‑1, 深度强化学习模型根据飞行器的飞行状态输出偏置项ab至飞行器仿真模 型; 步骤1‑2‑2, 采集深度强化学习模型与飞行器仿真模型交互的数据, 并存储至经验池 中; 步骤1‑2‑3, 使用经验 池中的数据改进深度强化学习模型输出的偏置项ab。 6.根据权利要求3所述的方法, 其特 征在于, 步骤1‑2‑2中, 所述深度强化学习模型与飞行器仿真模型交互的数据为元素组(st, at, rt); 其中, st表示飞行器在t时刻的飞行状态; at表示深度强化学习模型在t时刻 输出的偏置 项; rt表示飞行器在t时刻执 行偏置项at后环境给 出的奖励。 7.根据权利要求6所述的方法, 其特 征在于,权 利 要 求 书 1/3 页 2 CN 115046433 A 2所述rt根据下式获得: 其中, td表示期望飞行时间, tf表示实际飞行时间; R表示弹目距离; c1表示飞行时间奖励的归一化参数, 设置为常数100; c2表示弹目距离奖励的归一化参 数, 设置为常数10 000。 8.根据权利要求5所述的方法, 其特 征在于, 所述深度强化学习模型包括两个不同的神经网络: 策略网络和评价网络; 所述策略网络以飞行状态s为输入, 偏置项ab为输出; 所述评价网络以飞行状态s为输入, 状态s的状态值 函数Vπ(s)为输出; 其中, 优势函数为 用于改进策略网络, 所述优势函数通过 下式得到: 其中, k为奖励的个数, Vπ表示状态值函数, rt表示t时刻的奖励, rt+1表示t+1时刻的奖 励, rt+2表示t+2时刻的奖励, 依此类推rt+k‑1表示t+k‑1时刻的奖励, γ 为折扣因子, 设置 为常 数0.99。 9.根据权利要求5所述的方法, 其特 征在于, 所述策略网络的目标函数为: 其中, ω表示策 略网络中权重w1和偏移量b1的集合, ω={w1, b1}; w1表示策略网络中全 连接层的权 重, b1表示策略网络中全连接层的偏移量; rt(ω)表示改进策略与旧策略之间的比率, clip为剪切函数, ∈为约束策略网络更新幅 度的剪切参数; Ns为经验池的容量; 表示基于旧策略生成奖励值 求得的优势函数; 所述评价网络的目标函数为 其中, ξ表示评价网络中权 重w2和偏移量b2的集合, ξ ={w2, b2}; At(st, at)表示评价网络中的优势函数; 当交互次数N=Ns时, 表示经验 池饱和, 所述ω和 ξ 根据下式进行 更新: 权 利 要 求 书 2/3 页 3 CN 115046433 A 3

.PDF文档 专利 基于深度强化学习的飞行器时间协同制导方法

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于深度强化学习的飞行器时间协同制导方法 第 1 页 专利 基于深度强化学习的飞行器时间协同制导方法 第 2 页 专利 基于深度强化学习的飞行器时间协同制导方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:23:22上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。