专利基于Spark集群和Ring-AllReduce架构的分布式联邦学习方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210903965.6 (22)申请日 2022.07.28 (71)申请人上海光之树科技有限公司地址 200433 上海市杨浦区国和路6 0号 (72)发明人夏长达　夏家骏　张子扬　张珣　沈敏均　张佳辰　 (74)专利代理机构广州鼎贤知识产权代理有限公司 44502 专利代理师刘莉梅 (51)Int.Cl. G06N 20/20(2019.01) G06F 9/50(2006.01) (54)发明名称基于Spark集群和Ring-AllReduc e架构的分布式联邦学习方法 (57)摘要本发明公开了一种基于Spark集群和Ring ‑ AllReduce架构的分布式联邦学习方法，通过在联邦学习中集成Spark集群并融入Ring ‑ AllReduce分布式训练架构，保证了在正常进行联邦训练过程中，不必将集群扩展为联邦训练的客户端节点，由客户端自由选择调用集群环境进行分布式训练，避免了联邦学习的服务端对客户端的集群环境的管理，简化了计算架构。同时采用Ring‑AllReduc e架构减少了通信成本，避免了集群内并行机器数量过多导致的通信成本增加的问题。权利要求书1页说明书5页附图2页 CN 115249074 A 2022.10.28 CN 115249074 A 1.一种基于Spark集群和Rin g‑AllReduce架构的分布式联邦学习方法，其特征在于，步骤包括： S1，服务端定义模型M并对其序列化后生成序列化信息广播给各客户端进行联邦训练； S2，各所述客户端接收到所述序列化信息后部署好Spark集群环境，所述Spark集群环境包括训练集群和数据集群； S3，所述训练集群中的每个工作节点对接收到的所述序列化信息反序列化得到所述模型M和模型训练参数，并以所述数据集群投喂的数据为样本，相互间按照Ring ‑AllReduce的通信方式进行梯度聚合，以完成对所述模型M的迭代训练。 2.根据权利要求1所述的基于Spark集群和Ring ‑AllReduce架构的分布式联邦学习方法，其特征在于，还包括： S4，每个所述客户端读取其部署的所述训练集群聚合的模型参数回传给所述服务端； S5，所述服务端对各所述客户端回传的所述模型参数进行聚合后更新所述模型M； S6，重复执行所述步骤S1‑S5，直至达到模型训练终止条件。 3.根据权利要求1所述的基于Spark集群和Ring ‑AllReduce架构的分布式联邦学习方法，其特征在于，所述服务端定义的所述模型M为 keras模型。 4.根据权利要求1所述的基于Spark集群和Ring ‑AllReduce架构的分布式联邦学习方法，其特征在于，步骤S3中，梯度聚合通过TensorFlow的multi ‑worker策略按照Ring ‑ AllReduce的通信方式进行。 5.根据权利要求1所述的基于Spark集群和Ring ‑AllReduce架构的分布式联邦学习方法，其特征在于，步骤S4中，所述客户端将读取的所述模型参数加入掩码后回传给所述服务端。 6.根据权利要求1所述的基于Spark集群和Ring ‑AllReduce架构的分布式联邦学习方法，其特征在于，步骤S4中，所述客户端取所述模型参数与步骤S3反序列化得到的所述模型训练参数的参数差回传给所述服务端。 7.根据权利要求6所述的基于Spark集群和Ring ‑AllReduce架构的分布式联邦学习方法，其特征在于，所述客户端对所述参数差加入掩码后回传给所述服务端。 8.根据权利要求1所述的基于Spark集群和Ring ‑AllReduce架构的分布式联邦学习方法，其特征在于，步骤S3中， Ring ‑AllReduce架构下的分布式计算由对应的所述客户端调度。权　利　要　求　书 1/1 页 2 CN 115249074 A 2基于Spark集群和Ring ‑AllReduce架构的分布式联邦学习方法技术领域 [0001]本发明涉及深度学习技术领域，具体涉及一种基于Spark集群和Ring ‑AllReduce 架构的分布式联邦学习方法。背景技术 [0002]联邦学习是保证数据安全的前提下联合多方进行建模的一种学习方式， Spark则是专为大规模数据处理而设计的快速通用的计算引擎。 Ring ‑AllReduce架构，是并行计算的一种通信最优方案，可以保证并行计算时通信成本的基本恒定，避免了通信成本随并行数目的增加而线性增长。 [0003]目前，多个机构联合进行模型训练时，很多时候数据量(如时间序列数据)是巨大的，这时就需要充分利用多机进行并行计算来降低整个联邦训练的耗时，但随着机器的增多，也会带来更高的通信成本，可能使得并行计算变得不切实际降低了模型训练的效率。例如，目前， TensorFlow Federate框架主要采用Ten sorFlow的keras模型进行训练，训练过程如下： [0004]首先，服务端定义好keras模型M； [0005]然后，服务端将模型M进行序列化得到序列化模型S，并发送给各客户端； [0006]最后，客户端对序列化模型S反序列化得到模型M，并读取本地数据为模型样本进行训练。 [0007]而分布式机器学习通常采用数据并行的模式。数据并行的架构主要采用PS ‑ Worker架构，在一些常用的机器学习包如TensorFlow、 pytorch、 paddle等中都有一些相应的api，通过在分布式工作节点中安装这些api，可以在多机/多卡上实现分布式计算，相比之下，这些机器学习包中对分布式计算的梯度聚合方式比Spark集群自带的map ‑reduce更加易用且丰富，但在分布式机器的调度管理上不如Spark 集群方便。 [0008]综上可以看到，现有的TensorFlow Federated框架支持使用自定义的各种 keras 模型进行训练，但缺乏对大规模数据的训练支持，如果对大规模数据进行训练可能因内存问题导致训练失败，又或者需要利用队列依次读出数据，将耗费大量的时间。如果可以嵌入 Spark集群进行分布式计算就可以减少大量数据的输入输出和计算产生的时间消耗，但仅仅这么做会在并行机器过多时使得训练受限于通信带宽，这就不但需要嵌入的分布式方法能够对keras模型有相应的适配，而且还要避免并行机器增多带来的通信成本问题，此外还需要能够保证客户端在TensorFlow Federated的框架下对集群进行调度，保证联邦训练的正常进行。因此如何在保护数据私密性的同时，利用好海量数据快速地进行模型训练，并且避免过高的通信成本成为目前深度学习技术领域亟待解决的技术问题。发明内容 [0009]本发明以在保护数据私密性的同时，利用海量数据快速进行模型训练，并且避免说　明　书 1/5 页 3 CN 115249074 A 3

专利 基于Spark集群和Ring-AllReduce架构的分布式联邦学习方法

专利基于Spark集群和Ring-AllReduce架构的分布式联邦学习方法