专利一种基于元学习的无人机导航方法

(19)中华人民共和国国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202110145844.5 (22)申请日 2021.02.02 (65)同一申请的已公布的文献号申请公布号 CN 113011081 A (43)申请公布日 2021.06.22 (73)专利权人电子科技大学地址 611731 四川省成都市高新区（西区）西源大道 2006号 (72)发明人董乐　张宁　陈相蕾　 (74)专利代理机构成都弘毅天承知识产权代理有限公司 5123 0 代理人孟仕杰 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/08(2006.01)G01C 21/36(2006.01) G06F 111/08(2020.01) (56)对比文件 CN 111141300 A,2020.0 5.12 CN 111260660 A,2020.0 6.09 TW I28048 8 B,2007.05.01 CN 111260026 A,2020.0 6.09 CN 111783983 A,2020.10.16 Bo Li.UAV Maneuvering Target Track ing in Uncertai n Enviro nments Based o n Deep Reinforcement Learn ig and Meta-Learn ing. 《Remote Sensi ng》 .2020,第1-20页. 审查员罗捷 (54)发明名称一种基于元学习的无人机导航方法 (57)摘要本发明涉及计算机视觉导航领域，具体是一种基于元学习的无人机导航方法，包括如下步骤：步骤一、生成N个三维室内模拟环境，每一个三维室内模拟环境随机生成K个导航任务；步骤二、构建策略模型并初始化；步骤三、对元训练数据中任一三维室内模拟环境，通过其生成的K个导航任务对策略模型进行训练及测试；步骤四、对任一三维室内模拟环境完成步骤三的训练后，通过元学习rep t i le算法分别对策略模型进行参数更新；步骤五、重复步骤三和步骤四，直至建策略模型收敛得到最终模型；步骤六、对收敛的策略模型应用于未知场景，并进行参数更新，更新后输出策略，直到抵达目标物体或导航失败；解决无人机对新场景的适应性差和迁移能力差的问题。权利要求书2页说明书4页附图1页 CN 113011081 B 2022.03.22 CN 113011081 B 1.一种基于元学习的无人机导航方法，其特征在于，包括如下步骤：步骤一、生成N个三维室内模拟环境，将N个三维室内模拟环境按比例分为元训练数据与元测试数据，每一个三维室内模拟环境随机生成K个导航任务，将K个导航任务按比例分为子训练数据与子测试数据；步骤二、构建策略模型φ并初始化，所述策略模型φ的网络框架包括ResNet34模型、 festText模型、 Actor模型和Critic模型；步骤三、对元训练数据中任一三维室内模拟环境，通过其生成的K个导航任务对策略模型φ进行训练及测试；步骤四、对任一三维室内模拟环境完成步骤三的训练后，通过元学习 reptile算法分别对Actor模型和Critic模型进行参数更新；步骤五、重复步骤三和步骤四，直至建策略模型φ收敛得到模型φfinal；步骤六、对元测试数据中任一三维室内模拟环境，在模型φfinal基础上通过该三维室内模拟环境中的子训练数据训练更新得到模型 φtest，在子测试训练中，将采集的图片及目标物体单词输至模型φtest，得到输出策略并执行相应动作，直至到达目标物体或导航失败。 2.根据权利要求1所述的一种基于元学习的无人机导航方法，其特征在于：所述 ResNet34模型和festText模型经过预训练且训练过程中固定参数，所述Actor模型和 Critic模型随机初始化并在训练过程中不断更新参数。 3.根据权利要求1所述的一种基于元学习的无人机导航方法，其特征在于：所述策略模型φ的输入输出处理流程为： S21、将采集的图像作为输入，通过ResNet34模型得到输出特征Fr； S22、输入目标物体单词通过festText模型输出特征Ff； S23、将特征Fr和特征Ff串联后得到特征Fc，并输入Actor模型，输出策略和对应概率，并根据概率选择策略，让无人机执行动作并到达下一状态； S24、将执行步骤S2 3策略后采集的图像作为输入，通过ResNet 34模型得到输出特征Fr'，将特征Fr'和特征Ff串联后得到特征Fc'，并输入Critic模型，输出Actor模型所输出的策略的分值。 4.根据权利要求3所述的一种基于元学习的无人机导航方法，其特征在于：所述步骤三中对策略模型φ的训练过程包括如下： S31、在当前状态s下，将采集的图像和目标物体单词输入并通过ResNet34模型和 festText模型得到串联特征Fc； S32、将特征Fc输入Actor模型得出策略和对应的概率，执行最大概率的策略π后得到新的状态s'和环境反馈的分数R； S33、将执行最大概率策略后采集的图像作为输入，通过ResNet34模型得到输出特征 Fr'，将特征Fr'和特征Ff串联后得到特征Fc'； S34、将特征Fc和特征Fc'输入Critic模型，得到状态s下的分数V(s)和状态s'下的分数V (s')； S35、计算时序差分值并使用均方差函数作为损失函数更新Critic模型； S36、更新Actor模型网络参数。 5.根据权利要求4所述的一种基于元学习的无人机导航方法，其特征在于：所述计算时权　利　要　求　书 1/2 页 2 CN 113011081 B 2序差分值的公式如下： TD＝R+α V(s') ‑V(s)；其中， α 表示超参数。 6.根据权利要求4所述的一种基于元学习的无人机导航方法，其特征在于：所述均方差函数公式如下： LossCritic＝(R+α V(s') ‑V(s))2。 7.根据权利要求4所述的一种基于元学习的无人机导航方法，其特征在于：所述步骤 S36中，网络损失函数的公式如下： LossActor＝‑log(prob)*TD； TD＝R+α V(s') ‑V(s)；其中， α 表示超参数， TD表示时序差分值， prob表示策略π对应的概率。 8.根据权利要求1所述的一种基于元学习的无人机导航方法，其特征在于：所述步骤四中，参数更新公式如下：其中， φi表示模型φ经过第i个导航任务训练后得到的模型， n是该三维室内模拟环境下用于训练的导航任务数量， β 是可调整的超参数。权　利　要　求　书 2/2 页 3 CN 113011081 B 3

专利 一种基于元学习的无人机导航方法

专利一种基于元学习的无人机导航方法