(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111502142.4
(22)申请日 2021.12.09
(71)申请人 之江实验室
地址 311100 浙江省杭州市余杭区中泰街
道之江实验室南湖总部8号楼
申请人 厦门大学
(72)发明人 卢杨 尚心怡 黄刚 华炜
王菡子
(74)专利代理 机构 杭州浙科专利事务所(普通
合伙) 33213
代理人 杨小凡
(51)Int.Cl.
G06N 20/00(2019.01)
(54)发明名称
一种面向长 尾异构数据的联邦学习方法
(57)摘要
本发明公开了一种面向长尾异构数据的联
邦学习方法包括如下步骤: 步骤一、 服务器端随
机初始化全局模 型w并将模型参数 发给各个客户
端, 各个客户端利用收到的模型参数进行模型更
新, 并将更新后的模型参数上传至服务器端; 步
骤二、 服务器端对收到的本地模 型参数后进行聚
合得到教师模型和学生模型; 步骤三、 服务器端
对步骤二中得到的教师模型进行校准, 让教师模
型在无偏知识上进行学习, 以此教出好的学生模
型; 步骤四、 使用知识蒸馏将教师模型的无偏知
识传递给学生模 型, 随后将学生模 型发给各个客
户端开始下一轮联邦训练。
权利要求书2页 说明书9页 附图1页
CN 114429219 A
2022.05.03
CN 114429219 A
1.一种面向长尾异构数据的联邦学习方法, 其特 征在于包括如下步骤:
S1, 服务器端随机初始化全局模型w, 并将模型参数下发至客户端, 客户端利用收到的
模型参数进行本地模型 更新, 并将更新后的本地模型参数 上传至服 务器端;
S2, 服务器端对本地模型参数进行聚合, 得到教师模型和学生模型;
S3, 服务器端对教师模型进行 校准, 使教师模型在无偏知识上进行 学习;
S4, 通过知识蒸馏, 将 教师模型的无偏知识传递给学生模型, 随后将学生模型下发至客
户端开始下一轮联邦训练。
2.根据权利要求1所述的一种面向长尾异构数据的联邦学习方法, 其特征在于所述步
骤S1中, 服务器端初始 化全局模 型参数w, 随机选择参与本轮训练的客户端集合S, 并将模 型
参数广播给参与本轮训练的客户端集合S, S中的客户端, 利用收到的全局模型参数w和本地
的数据, 执行随机梯度下降, 以更新本地模型, 客户端k更新得到的本地模型参数为wk, 待更
新之后, 客户端将其更新的模型参数发还给服 务器端。
3.根据权利要求2所述的一种面向长尾异构数据的联邦学习方法, 其特征在于所述步
骤S2包括如下步骤:
S21, 服务器端对本地模型参数进行平均加权, 得到学生模型, 计算公式如下:
φs(x)=φw(x) (公式2)
其中, |Dk|表示第k个客户端拥有的数据量, |D |表示所有 客户端拥有的数据总量, K表示
客户端数量, x表示输入数据, φw(·)表示联邦平均模型的网络, φs(·)表示学生模型的网
络。
S22, 服务器端对本地模型参数进行加权聚合, 得到教师模型, 计算公式如下:
其中, φt(·)表示教师模型的网络, ek表示客户端k的权重, 表示
第k个客户端的
网络。
4.根据权利要求3所述的一种面向长尾异构数据的联邦学习方法, 其特征在于所述步
骤S3中, 提出基于客户端的权重分配策略, 以此来计算每个客户端本地模型的权重ek, 最后
将ek归一化使其总和等于1, 即为 最终权重, 权重ek的计算公式如下:
其中, ae∈Rc和be表示可被学习的网络参数, Rc表示c维向量, T为转置符号, 根据模型的
原始输出对本地模型计算权 重, 再将权 重乘回原 始输出。
5.根据权利要求4所述的一种面向长尾异构数据的联邦学习方法, 其特征在于所述步
骤S3中, 提出基于类的原 始输出校准策略, 校准后的模型输出为zcl, 计算公式如下:
zcl=az⊙φt(x)+bz (公式5)
其中, az和bz表示可被学习的网络参数, ⊙表示哈达 玛积。
6.根据权利要求5所述的一种面向长尾异构数据的联邦学习方法, 其特征在于所述步
骤S3中, 在服务器端利用额外的平衡有标签数据集
在全局模型w 上进行微调, 得到 微权 利 要 求 书 1/2 页
2
CN 114429219 A
2调模型
对于输入数据为x的微调模型输出为
其中zft表示微调模型对x的输
出,
表示微调模型的网络 。
7.根据权利要求6所述的一种面向长尾异构数据的联邦学习方法, 其特征在于所述微
调模型
其中, η表示学习率,
表示损失函数,
表示求导。
8.根据权利要求6所述的一种面向长尾异构数据的联邦学习方法, 其特征在于所述步
骤S3中, 通过校准门控网络对zcl和zft做权衡, 校准门控网络以集成特征作为输入, 经由非
线性层输出权 重, 权重计算公式如下:
σ =sigmo id(uTv) (公式6)
其中,
表示集成特征,
表示第k个客户端的特征提取器, u∈Rd表
示可被学习的网络参数, Rd表示d维向量, 通过校准门控网络的最终校准模型输出为z ′, 计
算公式如下:
z′=σ zcl+(1‑σ )zft (公式7)
其中σ ∈(0,1)用于 权衡zcl和zft两个模型输出。
9.根据权利要求8所述的一种面向长尾异构数据的联邦学习方法, 其特征在于集成校
准的整个过程中, 可被学习的参数通过在
上的交叉熵损失进行 更新, 损失函数
如下:
其中, C表示类别数, yj表示输入数据的真实标签, j表示y中第j维 的值, exp( ·)表示指
数函数, z ′j表示最终校准z ′中第j维的值, z ′i表示最终校准z ′中第i维的值。
10.根据权利要求1所述的一种面向长尾异构数据的联邦学习方法, 其特征在于所述步
骤S4中, 通过知识蒸馏, 将教师模型的无偏知识传递给学生模型, 具体地, 使用有标签数据
训练和无 标签数据蒸馏结合的方式训练学生模型, 其损失函数如下:
L′=(1‑λ )LCE+λLKL (公式9)
其中, LCE表示学生模型的模型输出和真实标签之间的交叉熵损失, LKL表示教师模型和
学生模型之间模型输出的相对熵散度, 通过平衡有标签数据集
计算LCE, 并使用无标签
数据集
计算LKL, λ∈[0,1]表示超参数, 对LCE和LKL进行权衡。权 利 要 求 书 2/2 页
3
CN 114429219 A
3
专利 一种面向长尾异构数据的联邦学习方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 01:20:53上传分享