专利基于情感偏好与迁移行为的联邦学习无人机协同决策方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211300162.8 (22)申请日 2022.10.21 (71)申请人华东理工大学地址 200237 上海市徐汇区梅陇路13 0号 (72)发明人代明智　冯翔　 (51)Int.Cl. G06F 16/9537(2019.01) G06F 17/16(2006.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称基于情感偏好与迁移行为的联邦学习无人机协同决策方法及系统 (57)摘要本发明公开了一种基于情感偏好与迁移行为的联邦学习无人机协同决策方法及系统，该方法包括:采集探测目标物的位置信息；采集探测无人机当前时刻的位置和速度，协同探测无人机之间的位置信息共享，生成探测无人机下一时刻的位置和速度；依据所述目标位置空间确定最佳的探测无人机群任务阵列；依据全局三维距离构造评价函数，最终优化产生最优的探测无人机阵列位置矩阵。通过加入方向位置增量策略，产生对模型对最优解搜索的方向约束，解决了模型搜索范围过宽，搜索过于随机化以及容易陷入局部最优的问题；同时融入了非线性余弦自适应的交叉和变异策略，以提高目标解的多样性。最后，通过融入基于聚类划分联邦学习的概念，以保证协同探测无人机群获取目标位置数据的独立性和隐私性。权利要求书3页说明书8页附图4页 CN 115525842 A 2022.12.27 CN 115525842 A 1.基于情感偏好与迁移行为的联邦学习无人机协同决策方法及系统，其特征在于，包括：采集探测目标物的位置信息；采集探测无人机当前时刻的位置和速度；探测无人机与所属机构之间的通信，生成探测无人机下一时刻的位置和速度；依据全局三维距离构造评价函数；依据所述目标位置空间和评价函数确定最佳的探测无人机群任务阵列；通过加入方向位置增量策略，产生对模型对最优解搜索的方向约束；通过融入非线性余弦自适应的交叉和变异策略，以提高目标解的多样性；基于聚类划分联邦学习的概念，保证探测无人机群数据的独立性和隐私性。 2.根据权利要求1所述的基于情感偏好与迁移行为的联邦学习无人机协同决策方法，其特征在于，所述的探测目标物的位置信息集合表示为： Tar_pos＝{L ong,Lat,High} 其中， Long表示探测目标物的经度， Lat表示探测目标物的纬度，而High表示探测目标物的高度。 3.根据权利要求1所述的基于情感偏好与迁移行为的联邦学习无人机协同决策方法，其特征在于，所述的探测无人机当前时刻的位置和速度包括：探测无人机k当前时刻t的位置：其中k代表第k个探测无人机，于是当前时刻t探测无人机k的任务阵列可表示为个体矩阵探测无人机k当前时刻t的速度： Dro_vel＝{vk,t}， vk,t＝α×(Xm,t‑Xk,t)+β×(Xe,t‑Xk,t)，其中Xm,t为当前无人机群任务阵列群体中的最优阵列个体矩阵， Xm,t为当前无人机群任务阵列个体矩阵的最优邻居个体矩阵。 4.根据权利要求1所述的基于情感偏好与迁移行为的联邦学习无人机协同决策方法，其特征在于，探测无人机之间的位置信息共享，生成探测无人机下一时刻的位置和速度包括：探测无人机k下一时刻t+1的速度： vk,t+1＝α×(Xm,t+1‑Xk,t+1)+β×(Xe,t+1‑Xk,t+1)。探测无人机k下一时刻t+1的位置：下一时刻t+1探测无人机k的任务阵列可表示为Xi,t+1 ＝Xi,t+wtvk,t‑1+vk,t，其中wt是一个随着t线性递减的惯性权重函数， wt＝wend+(wstart‑wend)，其中wstart表示惯性权重的开始值， wend表示惯性权重的结束值。 5.根据权利要求1所述的基于情感偏好与迁移行为的联邦学习无人机协同决策方法，其特征在于，依据全局三维距离构造的评价函数包括：探测无人机阵列中某个无人机 k 与其所有探测目标物的距离之和：探测无人机阵列中任意无人机c与无人机d的最小距离： mi n‖Dro_posc‑Dro_posd‖ 。于是全局的三维距离评价函数可以构造为：其中l权　利　要　求　书 1/3 页 2 CN 115525842 A 2代表探测无人机的数目。评价函数fit(l,X)的值越小，探测无人机群的任务阵列排布就越佳。 6.根据权利要求5所述的全局三维距离构造的评价函数，其特征在于，依据所述目标位置空间和评价函数确定的最佳探测无人机群任务阵列Xop可表示为： 7.根据权利要求1所述的基于情感偏好与迁移行为的联邦学习无人机协同决策方法，其特征在于，通过加入方向位置增量策略，产生对模型对最优解搜索的方向约束，包括：两个方向的位置增量为Xrk,t和Xlk,t，其更新方式如下：其中dt＝σt/s， s是一个非负常数。 σt是步长大小，它代表每次迭代跳转的距离，且σt+1＝ eta·σt， eta同样为非负常数。于是方向位置增量可表示为：其中f(Xrk,t)和f(Xlk,t)分别代表个体在位置Xrk,t和Xlk,t的评价函数值。 sign是一个符号函数，当f(Xrk,t)‑r(Xlk,t)<0时，函数值为 ‑1，且f(Xrk,t)‑f(Xlk,t)>0时,函数值为1。同时，当f(Xrk,t)‑f(Xlk,t)＝0时，函数值为0。于是，下一时刻t+1探测无人机k的任务阵列Xk,t+1＝Xk,t+wtvk,t‑1+vk,t将转换为：其中，式中Xk,t+1和Xk,t分别代表个体i在第t次和第t+1次迭代探测无人机k的任务阵列。 η代表增量系数，代表第t次迭代的方向增量。相较于原无人机位置任务阵列，可以在优化过程中有方向的搜索最优解，而不是仅仅随机地更新无人机的位置信息，从而辅助模型更加高效地搜索最佳探测无人机阵列。 8.根据权利要求1所述的基于情感偏好与迁移行为的联邦学习无人机协同决策方法，其特征在于，通过融入非线性余弦自适应的交叉和变异策略，以提高目标解的多样性，包括：非线性余弦自适应交叉算子Pc：非线性余弦自适应变异算子Pm：权　利　要　求　书 2/3 页 3 CN 115525842 A 3

专利 基于情感偏好与迁移行为的联邦学习无人机协同决策方法及系统

专利基于情感偏好与迁移行为的联邦学习无人机协同决策方法及系统