说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111413026.5 (22)申请日 2021.11.25 (71)申请人 支付宝 (杭州) 信息技 术有限公司 地址 310000 浙江省杭州市西湖区西溪路 556号8层B段801-1 1 (72)发明人 刘鹤洋  (74)专利代理 机构 中国贸促会专利商标事务所 有限公司 1 1038 代理人 於菪珉 (51)Int.Cl. G06F 21/62(2013.01) G06F 21/60(2013.01) G06F 21/16(2013.01) G06N 20/00(2019.01) (54)发明名称 联邦学习模型的训练方法和调用方法以及 联邦学习 系统 (57)摘要 本说明书实施例提供一种联邦学习模型的 训练方法和调用方法以及联邦 学习系统。 该训练 方法包括: 获取多个参与者中的每个参与者的水 印化训练数据集; 以及基于多个参与者中的每个 参与者的水印化训练数据集进行联邦学习训练, 以分别产生每个参与者的作为联邦学习模型的 一部分的碎片模型, 其中, 水印化训练数据集包 括水印训练数据, 参与者的水印训练数据的数据 标识彼此对应, 且多个参与者中的至少一个参与 者的水印训练数据包括水印标签 。 权利要求书7页 说明书18页 附图10页 CN 114091103 A 2022.02.25 CN 114091103 A 1.一种联邦学习模型的训练方法, 其中, 用于训练所述联邦学习模型的训练数据分布 在多个参与者处, 所述训练方法包括: 获取所述多个参与者中的每个参与者的水印化训练数据集, 其中, 水印化训练数据集 包括水印训练数据, 每个参与者的水印训练数据的数据标识与其他参与者的水印训练数据 的数据标识相对应, 且所述多个参与者中的至少一个参与者的水印训练数据包括水印标 签; 以及 基于所述多个参与者中的每个参与者的水印化训练数据集进行联邦学习训练, 以分别 产生每个参与者的作为所述联邦学习模型的一部分的碎片模型。 2.根据权利要求1所述的训练方法, 其中, 获取所述多个参与者中的每个参与者的水印 化训练数据集包括: 从每个参与者提供的第 一训练数据集中提取具有预设数据标识的训练数据, 以产生该 参与者的第二训练数据集; 根据所述第二训练数据集来产生该参与者的第三训练数据集, 其中, 所述第三训练数 据集中的每条训练数据的特征部分由对所述第二训练数据集中的相 应的训练数据的特征 部分进行水印化处理而产生, 且当所述第二训练数据集中的训练数据包括所述联邦学习模 型的标签部 分时, 所述第三训练数据集中的每条训练数据的标签部 分由将所述第二训练数 据集中的相应的训练数据的标签部分修改为水印标签而产生; 以及 将所述第三训练数据集与所述第一训练数据集的至少一部分合并为该参与者的水印 化训练数据集。 3.根据权利要求2所述的训练方法, 其中, 在所述多个参与者中, 每个参与者的第二训 练数据集中的训练数据的数目彼此相等。 4.根据权利要求2所述的训练方法, 其中, 参与者的第 二训练数据集中的训练数据的数 目与该参与者的第一训练数据集中的训练数据的数目的比例在从5%至20%的范围内。 5.根据权利要求2所述的训练方法, 其中, 参与者的第 二训练数据集中的训练数据的数 目与该参与者的第一训练数据集中的训练数据的数目的比例为10%。 6.根据权利要求2所述的训练方法, 其中, 预设数据标识是从所述多个参与者中的每个 参与者的第一训练数据集的训练数据中都具有的数据标识中随机 选择的。 7.根据权利要求2所述的训练方法, 其中, 所述第 三训练数据集中的每条训练数据的特 征部分由对所述第二训练数据集中的相 应的训练数据的特征部分进行水印化处理而产生 包括: 将噪声与所述第 二训练数据集中的训练数据的特征部分进行叠加, 并将叠加的结果作 为所述第三训练数据集中的相应的训练数据的特 征部分; 其中, 噪声的维度、 所述第二训练数据集中的训练数据的特征部分的维度和所述第三 训练数据集中的训练数据的特 征部分的维度彼此相等。 8.根据权利要求7所述的训练方法, 其中, 噪声包括根据非训练数据而产生的噪声; 或 者 噪声包括基于图像对抗 算法而产生的噪声; 或者 噪声包括高斯噪声。 9.根据权利要求1所述的训练方法, 其中, 当所述联邦学习模型为分类模型时, 水印标权 利 要 求 书 1/7 页 2 CN 114091103 A 2签被设置为对应于水印类型的标签。 10.根据权利要求1所述的训练方法, 其中, 当所述联邦学习 模型为回归模型时, 水印标 签被设置为对应于所述联邦学习模型的最小输出值或最大输出值的标签。 11.根据权利要求1所述的训练方法, 其中, 基于所述多个参与者中的每个参与者的水 印化训练数据集进行联邦学习训练, 以分别产生每个参与者的作为所述联邦学习模型的一 部分的碎片模型包括: 基于所述多个参与者中的每个参与者的水印化训练数据集进行纵向联邦学习训练, 以 分别产生每 个参与者的碎片模型。 12.根据权利要求11所述的训练方法, 其中, 基于所述多个参与者中的每个参与者的水 印化训练数据集进行纵向联邦学习训练, 以分别产生每 个参与者的碎片模型包括: 从所述多个参与者中选择一个参与者作为第一聚合 者; 所述多个参与者中的每个参与者分别根据其水印化训练数据集中的训练数据的特征 部分产生 其初始的碎片模型; 所述多个参与者中的每个参与者分别在其本地根据其训练数据和其碎片模型, 产生其 本地梯度数据; 所述多个参与者中的每个参与者分别利用其第 一公钥对其本地梯度数据进行加密, 以 产生其本地加密 梯度数据; 所述多个参与者中的不是所述第一聚合者的所有其他参与者分别将其本地加密梯度 数据传输给 所述第一聚合 者; 所述第一聚合者将所述多个参与者的所有本地加密梯度 数据进行聚合, 以产生 聚合加 密梯度数据, 并将所述聚合加密 梯度数据分别返回给 所有其他参与者; 所述多个参与者中的每个参与者分别利用其第一私钥对所述聚合加密梯度数据进行 解密, 以产生聚合梯度数据; 所述多个参与者中的每个参与者分别基于其 聚合梯度数据对其碎片模型进行更新; 以 及 返回所述多个参与者中的每个参与者分别在其本地根据其训练数据和其碎片模型, 产 生其本地梯度数据的步骤, 直至 完成所述纵向联邦学习训练。 13.根据权利要求12所述的训练方法, 其中, 所述第 一聚合者是从所述多个参与者中随 机选择的。 14.根据权利要求11所述的训练方法, 其中, 基于所述多个参与者中的每个参与者的水 印化训练数据集进行纵向联邦学习训练, 以分别产生每 个参与者的碎片模型包括: 所述多个参与者中的每个参与者分别根据其水印化训练数据集中的训练数据的特征 部分产生 其初始的碎片模型; 所述多个参与者中的每个参与者分别在其本地根据其训练数据和其碎片模型, 产生其 本地梯度数据; 所述多个参与者中的每个参与者分别利用其第 一公钥对其本地梯度数据进行加密, 以 产生其本地加密 梯度数据; 所述多个参与者中的每 个参与者分别将其本地加密 梯度数据传输给共享平台; 所述共享平台将所述多个参与者的所有本地加密梯度数据进行聚合, 以产生 聚合加密权 利 要 求 书 2/7 页 3 CN 114091103 A 3

.PDF文档 专利 联邦学习模型的训练方法和调用方法以及联邦学习系统

文档预览
中文文档 36 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共36页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 联邦学习模型的训练方法和调用方法以及联邦学习系统 第 1 页 专利 联邦学习模型的训练方法和调用方法以及联邦学习系统 第 2 页 专利 联邦学习模型的训练方法和调用方法以及联邦学习系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:22:41上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。