说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210903965.6 (22)申请日 2022.07.28 (71)申请人 上海光之树科技有限公司 地址 200433 上海市杨 浦区国和路6 0号 (72)发明人 夏长达 夏家骏 张子扬 张珣  沈敏均 张佳辰  (74)专利代理 机构 广州鼎贤知识产权代理有限 公司 44502 专利代理师 刘莉梅 (51)Int.Cl. G06N 20/20(2019.01) G06F 9/50(2006.01) (54)发明名称 基于Spark集群和Ring-AllReduc e架构的分 布式联邦学习方法 (57)摘要 本发明公开了一种基于Spark集群和Ring ‑ AllReduce架构的分布式联邦学习方法, 通过在 联邦学习中集成Spark集群并融入Ring ‑ AllReduce分布式训练架构, 保证了在正常进行 联邦训练过程中, 不必将集群扩展为联邦训练的 客户端节 点, 由客户端自由选择调用集群环境进 行分布式训练, 避免了联邦学习的服务端对客户 端的集群环境的管理, 简化了计算架构。 同时采 用Ring‑AllReduc e架构减少了通信成本, 避免了 集群内并行机器数量过多导致的通信成本增加 的问题。 权利要求书1页 说明书5页 附图2页 CN 115249074 A 2022.10.28 CN 115249074 A 1.一种基于Spark集群和Rin g‑AllReduce架构的分布式联邦学习方法, 其特征在于, 步 骤包括: S1, 服务端定义模型M并对其序列化后生成序列化信息广播给 各客户端 进行联邦训练; S2, 各所述客户端接收到所述序列化信息后部署好Spark集群环境, 所述Spark集群环 境包括训练集群和数据集群; S3, 所述训练集群中的每个工作节点对接收到的所述序列化信 息反序列化得到所述模 型M和模型训练参数, 并以所述数据集群投喂的数据为样本, 相互间按照Ring ‑AllReduce的 通信方式进行梯度聚合, 以完成对所述模型M的迭代训练。 2.根据权利要求1所述的基于Spark集群和Ring ‑AllReduce架构的分布式联邦学习方 法, 其特征在于, 还 包括: S4, 每个所述客户端读取其部署的所述训练集群聚合的模型参数回传给 所述服务端; S5, 所述服务端对各 所述客户端回传的所述模型参数进行聚合后更新所述模型M; S6, 重复执 行所述步骤S1‑S5, 直至达到模型训练终止条件。 3.根据权利要求1所述的基于Spark集群和Ring ‑AllReduce架构的分布式联邦学习方 法, 其特征在于, 所述 服务端定义的所述模型M为 keras模型。 4.根据权利要求1所述的基于Spark集群和Ring ‑AllReduce架构的分布式联邦学习方 法, 其特征在于, 步骤S3中, 梯度聚合通过TensorFlow的multi ‑worker策略按照Ring ‑ AllReduce的通信方式进行。 5.根据权利要求1所述的基于Spark集群和Ring ‑AllReduce架构的分布式联邦学习方 法, 其特征在于, 步骤S4中, 所述客户端将读取的所述模 型参数加入掩码后回传给所述服务 端。 6.根据权利要求1所述的基于Spark集群和Ring ‑AllReduce架构的分布式联邦学习方 法, 其特征在于, 步骤S4中, 所述客户端取所述模 型参数与步骤S3反序列化得到的所述模 型 训练参数的参数差回传给 所述服务端。 7.根据权利要求6所述的基于Spark集群和Ring ‑AllReduce架构的分布式联邦学习方 法, 其特征在于, 所述 客户端对所述 参数差加入 掩码后回传给 所述服务端。 8.根据权利要求1所述的基于Spark集群和Ring ‑AllReduce架构的分布式联邦学习方 法, 其特征在于, 步骤S3中, Ring ‑AllReduce架构下的分布式计算由对应的所述客户端调 度。权 利 要 求 书 1/1 页 2 CN 115249074 A 2基于Spark集群和Ring ‑AllReduce架构的分布式联邦学习 方法 技术领域 [0001]本发明涉及深度学习技术领域, 具体涉及一种基于Spark集群和Ring ‑AllReduce 架构的分布式联邦学习方法。 背景技术 [0002]联邦学习是保证数据安全的前提下联合多方进行建模的一种学习方式, Spark则 是专为大规模数据处理而设计的快速通用的计算引擎。 Ring ‑AllReduce架构, 是并行计算 的一种通信最优方案, 可以保证并行计算时通信成本的基本恒定, 避免了通信成本随并行 数目的增 加而线性增长 。 [0003]目前, 多个机构联合进行模型训练时, 很多时候数据量(如 时间序列数据)是巨大 的, 这时就需要充分利用多机进行并行计算来降低整个联邦训练的耗时, 但随着机器的增 多, 也会带来更高的通信成本, 可能使得并行计算变得不切实际降低了模型训练的效率。 例 如, 目前, TensorFlow  Federate框架主要采用Ten sorFlow的keras模型进行训练, 训练过程 如下: [0004]首先, 服务端定义 好keras模型M; [0005]然后, 服务端将模型M进行序列化得到序列化模型S, 并发送给 各客户端; [0006]最后, 客户端对序列化模型S反序列化得到模型M, 并读取本地数据为模型样本进 行训练。 [0007]而分布式机器学习通常采用数据并行的模式。 数据并行的架构主要采用PS ‑ Worker架构, 在一些常用的机器学习 包如TensorFlow、 pytorch、 paddle等中都有一些相应 的api, 通过在分布式工作节点中安装这些api, 可以在多机/多卡上实现分布式计算, 相比 之下, 这些机器学习包中对分布 式计算的梯度聚合方式比Spark集群自带的map ‑reduce更 加易用且丰富, 但在分布式机器的调度管理上不如Spark 集群方便 。 [0008]综上可以看到, 现有的TensorFlow  Federated框架支持使用自定义的各种 keras 模型进行训练, 但缺 乏对大规模数据的训练支持, 如果对大规模数据进行训练可能因内存 问题导致训练失败, 又或者需要利用队列 依次读出数据, 将耗费大量的时间。 如果可以嵌入 Spark集群进行分布式计算就可以减少大量数据的输入输出和 计算产生的时间消耗, 但仅 仅这么做会在并行机器过多时使得训练受限于通信带宽, 这就不但需要嵌入的分布式方法 能够对keras模 型有相应的适配, 而且还要避免并行机器增多 带来的通信成本问题, 此外还 需要能够保证客户端在TensorFlow  Federated的框架下对集群进行调度, 保证联邦训练的 正常进行。 因此如何在保护数据私密性的同时, 利用好海量数据快速地进 行模型训练, 并且 避免过高的通信成本成为目前深度学习技 术领域亟 待解决的技 术问题。 发明内容 [0009]本发明以在保护数据私密性的同时, 利用海量数据快速进行模型训练, 并且避免说 明 书 1/5 页 3 CN 115249074 A 3

.PDF文档 专利 基于Spark集群和Ring-AllReduce架构的分布式联邦学习方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于Spark集群和Ring-AllReduce架构的分布式联邦学习方法 第 1 页 专利 基于Spark集群和Ring-AllReduce架构的分布式联邦学习方法 第 2 页 专利 基于Spark集群和Ring-AllReduce架构的分布式联邦学习方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:12:50上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。