说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111502142.4 (22)申请日 2021.12.09 (71)申请人 之江实验室 地址 311100 浙江省杭州市余杭区中泰街 道之江实验室南湖总部8号楼 申请人 厦门大学 (72)发明人 卢杨 尚心怡 黄刚 华炜  王菡子  (74)专利代理 机构 杭州浙科专利事务所(普通 合伙) 33213 代理人 杨小凡 (51)Int.Cl. G06N 20/00(2019.01) (54)发明名称 一种面向长 尾异构数据的联邦学习方法 (57)摘要 本发明公开了一种面向长尾异构数据的联 邦学习方法包括如下步骤: 步骤一、 服务器端随 机初始化全局模 型w并将模型参数 发给各个客户 端, 各个客户端利用收到的模型参数进行模型更 新, 并将更新后的模型参数上传至服务器端; 步 骤二、 服务器端对收到的本地模 型参数后进行聚 合得到教师模型和学生模型; 步骤三、 服务器端 对步骤二中得到的教师模型进行校准, 让教师模 型在无偏知识上进行学习, 以此教出好的学生模 型; 步骤四、 使用知识蒸馏将教师模型的无偏知 识传递给学生模 型, 随后将学生模 型发给各个客 户端开始下一轮联邦训练。 权利要求书2页 说明书9页 附图1页 CN 114429219 A 2022.05.03 CN 114429219 A 1.一种面向长尾异构数据的联邦学习方法, 其特 征在于包括如下步骤: S1, 服务器端随机初始化全局模型w, 并将模型参数下发至客户端, 客户端利用收到的 模型参数进行本地模型 更新, 并将更新后的本地模型参数 上传至服 务器端; S2, 服务器端对本地模型参数进行聚合, 得到教师模型和学生模型; S3, 服务器端对教师模型进行 校准, 使教师模型在无偏知识上进行 学习; S4, 通过知识蒸馏, 将 教师模型的无偏知识传递给学生模型, 随后将学生模型下发至客 户端开始下一轮联邦训练。 2.根据权利要求1所述的一种面向长尾异构数据的联邦学习方法, 其特征在于所述步 骤S1中, 服务器端初始 化全局模 型参数w, 随机选择参与本轮训练的客户端集合S, 并将模 型 参数广播给参与本轮训练的客户端集合S, S中的客户端, 利用收到的全局模型参数w和本地 的数据, 执行随机梯度下降, 以更新本地模型, 客户端k更新得到的本地模型参数为wk, 待更 新之后, 客户端将其更新的模型参数发还给服 务器端。 3.根据权利要求2所述的一种面向长尾异构数据的联邦学习方法, 其特征在于所述步 骤S2包括如下步骤: S21, 服务器端对本地模型参数进行平均加权, 得到学生模型, 计算公式如下: φs(x)=φw(x)       (公式2) 其中, |Dk|表示第k个客户端拥有的数据量, |D |表示所有 客户端拥有的数据总量, K表示 客户端数量, x表示输入数据, φw(·)表示联邦平均模型的网络, φs(·)表示学生模型的网 络。 S22, 服务器端对本地模型参数进行加权聚合, 得到教师模型, 计算公式如下: 其中, φt(·)表示教师模型的网络, ek表示客户端k的权重, 表示 第k个客户端的 网络。 4.根据权利要求3所述的一种面向长尾异构数据的联邦学习方法, 其特征在于所述步 骤S3中, 提出基于客户端的权重分配策略, 以此来计算每个客户端本地模型的权重ek, 最后 将ek归一化使其总和等于1, 即为 最终权重, 权重ek的计算公式如下: 其中, ae∈Rc和be表示可被学习的网络参数, Rc表示c维向量, T为转置符号, 根据模型的 原始输出对本地模型计算权 重, 再将权 重乘回原 始输出。 5.根据权利要求4所述的一种面向长尾异构数据的联邦学习方法, 其特征在于所述步 骤S3中, 提出基于类的原 始输出校准策略, 校准后的模型输出为zcl, 计算公式如下: zcl=az⊙φt(x)+bz       (公式5) 其中, az和bz表示可被学习的网络参数, ⊙表示哈达 玛积。 6.根据权利要求5所述的一种面向长尾异构数据的联邦学习方法, 其特征在于所述步 骤S3中, 在服务器端利用额外的平衡有标签数据集 在全局模型w 上进行微调, 得到 微权 利 要 求 书 1/2 页 2 CN 114429219 A 2调模型 对于输入数据为x的微调模型输出为 其中zft表示微调模型对x的输 出, 表示微调模型的网络 。 7.根据权利要求6所述的一种面向长尾异构数据的联邦学习方法, 其特征在于所述微 调模型 其中, η表示学习率, 表示损失函数, 表示求导。 8.根据权利要求6所述的一种面向长尾异构数据的联邦学习方法, 其特征在于所述步 骤S3中, 通过校准门控网络对zcl和zft做权衡, 校准门控网络以集成特征作为输入, 经由非 线性层输出权 重, 权重计算公式如下: σ =sigmo id(uTv)    (公式6) 其中, 表示集成特征, 表示第k个客户端的特征提取器, u∈Rd表 示可被学习的网络参数, Rd表示d维向量, 通过校准门控网络的最终校准模型输出为z ′, 计 算公式如下: z′=σ zcl+(1‑σ )zft     (公式7) 其中σ ∈(0,1)用于 权衡zcl和zft两个模型输出。 9.根据权利要求8所述的一种面向长尾异构数据的联邦学习方法, 其特征在于集成校 准的整个过程中, 可被学习的参数通过在 上的交叉熵损失进行 更新, 损失函数 如下: 其中, C表示类别数, yj表示输入数据的真实标签, j表示y中第j维 的值, exp( ·)表示指 数函数, z ′j表示最终校准z ′中第j维的值, z ′i表示最终校准z ′中第i维的值。 10.根据权利要求1所述的一种面向长尾异构数据的联邦学习方法, 其特征在于所述步 骤S4中, 通过知识蒸馏, 将教师模型的无偏知识传递给学生模型, 具体地, 使用有标签数据 训练和无 标签数据蒸馏结合的方式训练学生模型, 其损失函数如下: L′=(1‑λ )LCE+λLKL       (公式9) 其中, LCE表示学生模型的模型输出和真实标签之间的交叉熵损失, LKL表示教师模型和 学生模型之间模型输出的相对熵散度, 通过平衡有标签数据集 计算LCE, 并使用无标签 数据集 计算LKL, λ∈[0,1]表示超参数, 对LCE和LKL进行权衡。权 利 要 求 书 2/2 页 3 CN 114429219 A 3

.PDF文档 专利 一种面向长尾异构数据的联邦学习方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向长尾异构数据的联邦学习方法 第 1 页 专利 一种面向长尾异构数据的联邦学习方法 第 2 页 专利 一种面向长尾异构数据的联邦学习方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:20:53上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。