说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202110145844.5 (22)申请日 2021.02.02 (65)同一申请的已公布的文献号 申请公布号 CN 113011081 A (43)申请公布日 2021.06.22 (73)专利权人 电子科技大 学 地址 611731 四川省成 都市高新区 (西区) 西源大道 2006号 (72)发明人 董乐 张宁 陈相蕾  (74)专利代理 机构 成都弘毅天承知识产权代理 有限公司 5123 0 代理人 孟仕杰 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/08(2006.01)G01C 21/36(2006.01) G06F 111/08(2020.01) (56)对比文件 CN 111141300 A,2020.0 5.12 CN 111260660 A,2020.0 6.09 TW I28048 8 B,2007.05.01 CN 111260026 A,2020.0 6.09 CN 111783983 A,2020.10.16 Bo Li.UAV Maneuvering Target Track ing in Uncertai n Enviro nments Based o n Deep Reinforcement Learn ig and Meta-Learn ing. 《Remote Sensi ng》 .2020,第1-20页. 审查员 罗捷 (54)发明名称 一种基于元学习的无 人机导航方法 (57)摘要 本发明涉及计算机视觉导航领域, 具体是一 种基于元学习的无人机导航方法, 包括如下步 骤: 步骤一、 生成N个三维室内模拟环境, 每一个 三维室内模拟环境随机生成K个导航任务; 步骤 二、 构建策略模型并初始化; 步骤三、 对 元训练数 据中任一三维室内模拟环境, 通过其生成的K个 导航任务对策略模型进行训练及测试; 步骤四、 对任一三维室内模拟环境完成步骤三的训练后, 通过元学习rep t i le算法分别对策略模型进行 参数更新; 步骤五、 重复步骤三和步骤四, 直至建 策略模型收敛得到最终模型; 步骤六、 对收敛的 策略模型应用于未知场景, 并进行参数更新, 更 新后输出策略, 直到抵达目标物体或导航失败; 解决无人机对新场景的适应性差和迁移能力差 的问题。 权利要求书2页 说明书4页 附图1页 CN 113011081 B 2022.03.22 CN 113011081 B 1.一种基于元 学习的无 人机导航方法, 其特 征在于, 包括如下步骤: 步骤一、 生成N个三维室内模拟环境, 将N个三维室内模拟环境按比例分为元训练数据 与元测试数据, 每一个三维室内模拟环境 随机生成K个导航任务, 将K个导航任务按比例分 为子训练数据与子测试 数据; 步骤二、 构建策略模型φ并初始化, 所述策略模型φ的网络框架包括ResNet34模型、 festText模型、 Actor模型和Critic模型; 步骤三、 对元训练数据中任一三维室内模拟环境, 通过其生成的K个导航任务对策略模 型φ进行训练及测试; 步骤四、 对任一三维室内模拟环境完成步骤三的训练后, 通过元学习 reptile算法分别 对Actor模型和Critic模型进行参数 更新; 步骤五、 重复步骤三和步骤四, 直至建策略模型φ收敛 得到模型φfinal; 步骤六、 对元测试数据中任一三维室 内模拟环境, 在模型φfinal基础上通过该三维室 内 模拟环境中 的子训练数据训练更新得到模型 φtest, 在子测试训练中, 将采集的图片及目标 物体单词输 至模型φtest, 得到输出策略并执 行相应动作, 直至 到达目标物体或导 航失败。 2.根据权利要求1所述的一种基于元学习的无人机导航方法, 其特征在于: 所述 ResNet34模型和festText模型经过预训练且训练过程中固定参数, 所述Actor模型和 Critic模型随机初始化并在训练过程中不断更新 参数。 3.根据权利要求1所述的一种基于元学习的无人机导航方法, 其特征在于: 所述策略模 型φ的输入输出处 理流程为: S21、 将采集的图像作为输入, 通过ResNet34模型 得到输出特征Fr; S22、 输入目标物体单词通过festText模型输出 特征Ff; S23、 将特征Fr和特征Ff串联后得到特征Fc, 并输入Actor模型, 输出策略和对应概率, 并 根据概率选择策略, 让无人机执行动作并到 达下一状态; S24、 将执行步骤S2 3策略后采 集的图像作为输入, 通过ResNet 34模型得到输出特征Fr', 将特征Fr'和特征Ff串联后得到特征Fc', 并输入Critic模型, 输出Actor模型所输出的策略 的分值。 4.根据权利要求3所述的一种基于元学习的无人机导航方法, 其特征在于: 所述步骤三 中对策略模型φ的训练过程包括如下: S31、 在当前状态s下, 将采集的图像和目标物体单词输入并通过ResNet34模型和 festText模型 得到串联 特征Fc; S32、 将特征Fc输入Actor模型得出策略和对应的概率, 执行最大概率的策略π后 得到新 的状态s'和环境反馈的分数R; S33、 将执行最大概率策略后采集的图像作为输入, 通过ResNet34模型得到输出特征 Fr', 将特征Fr'和特征Ff串联后得到特 征Fc'; S34、 将特征Fc和特征Fc'输入Critic模型, 得到状态s下的分数V(s)和状态s'下的分数V (s'); S35、 计算时序差分值并使用均方差函数作为损失函数 更新Critic模型; S36、 更新Actor模型网络参数。 5.根据权利要求4所述的一种基于元学习的无人机导航方法, 其特征在于: 所述计算 时权 利 要 求 书 1/2 页 2 CN 113011081 B 2序差分值的公式如下: TD=R+α V(s') ‑V(s); 其中, α 表示超参数。 6.根据权利要求4所述的一种基于元学习的无人机导航方法, 其特征在于: 所述均 方差 函数公式如下: LossCritic=(R+α V(s') ‑V(s))2。 7.根据权利要求4所述的一种基于元学习的无人机导航方法, 其特征在于: 所述步骤 S36中, 网络损失函数的公式如下: LossActor=‑log(prob)*TD; TD=R+α V(s') ‑V(s); 其中, α 表示超参数, TD表示时序差分值, prob表示策略π对应的概 率。 8.根据权利要求1所述的一种基于元学习的无人机导航方法, 其特征在于: 所述步骤四 中, 参数更新公式如下: 其中, φi表示模型φ经过第i个导航任务训练后得到的模型, n是该三维室内模拟环境 下用于训练的导 航任务数量, β 是 可调整的超参数。权 利 要 求 书 2/2 页 3 CN 113011081 B 3

.PDF文档 专利 一种基于元学习的无人机导航方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于元学习的无人机导航方法 第 1 页 专利 一种基于元学习的无人机导航方法 第 2 页 专利 一种基于元学习的无人机导航方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:19:50上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。