专利基于联邦学习的数据处理方法、装置及存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111680820.6 (22)申请日 2021.12.3 0 (71)申请人北京瑞莱智慧科技有限公司地址 100084 北京市海淀区中关村东路1号院8号楼19层A1901 (72)发明人不公告发明人　 (74)专利代理机构北京箴思知识产权代理有限公司 11913 代理人李春晖　曾晓波 (51)Int.Cl. G06N 20/20(2019.01) G06F 21/60(2013.01) (54)发明名称基于联邦学习的数据处理方法、装置及存储介质 (57)摘要本申请涉及联邦学习领域，提供一种基于联邦学习的数据处理方法、装置及存储介质。该方法应用于存储有多个第一样本的第一终端，包括：接收第二终端发送的第一、第二密文向量；根据各个第一样本的特征值，确定全部第一样本的各候选分裂方式，每个候选分裂方式将全部第一样本划分为两部分；基于各候选分裂方式分别构建掩码向量，每一掩码向量为根据对应候选分裂方式将全部第一样本划分后的划分结果；根据每个候选分裂方式的掩码向量、第一和第二密文向量，计算各候选分裂方式的分裂增益；其中，第一、第二密文向量和掩码向量均包括数量、结构均相同两个独立的数据元素。本申请针对各候选分裂方式构建掩码向量，简化了数据处理过程，提高了效率。权利要求书3页说明书17页附图7页 CN 114330758 A 2022.04.12 CN 114330758 A 1.一种基于联邦学习的数据处理方法，应用于存储有多个第一样本的第一终端，所述数据处理方法包括：接收第二终端发送的第一密文向量和第二密文向量；根据各个第一样本的特征值，确定全部第一样本的各个候选分裂方式，每个候选分裂方式将全部第一样本划分为两部分；基于各个候选分裂方式分别构建掩码向量，每一所述掩码向量表示根据对应候选分裂方式将全部第一样本划分后，各个第一样本为左子树节点或右子树节点；根据每个候选分裂方式的掩码向量、所述第一密文向量和所述第二密文向量，计算各个候选分裂方式的分裂增益；其中，所述第一密文向量、所述第二密文向量和所述掩码向量均包括相同数量的数据元素，每个数据元素具有相同的数据结构，包括两个独立的部分。 2.如权利要求1所述的基于联邦学习的数据处理方法，其中，基于一个候选分裂方式构建一个掩码向量，包括：根据所述候选分裂方式将各个第一样本划分到左子树或右子树；为左子树的每一个第一样本对应构建第一掩码元素，为右子树的每一个第一样本对应构建第二掩码元素；按照各个第一掩码元素和第二掩码元素对应的第一样本在全部第一样本中的顺序，将各个第一掩码元素和第二掩码元素组合为掩码向量；其中，所述第一掩码元素和第二掩码元素均为复数结构，并被配置为作为掩码向量中的数据元素与第一密文向量或第二密文向量中的数据元素进行内积运算后，仅保留实部或虚部。 3.如权利要求2所述的基于联邦学习的数据处理方法，其中，所述第一密文向量和所述第二密文向量中的数据元素、所述第一掩码元素和所述第二掩码元素被配置为各自的实部与虚部的绝对值相同，且第一掩码元素与第二掩码元素共轭。 4.如权利要求2或3所述的基于联邦学习的数据处理方法，其中，根据一个候选分裂方式的掩码向量、所述第一密文向量和第二密文向量，计算所述一个候选分裂方式的分裂增益，包括：将所述掩码向量与所述第一密文向量和第二密文向量分别进行向量内积运算；提取所述掩码向量与所述第一密文向量的内积运算结果中的第一实部和第一虚部，所述第一实部和第一虚部分别为左子树或右子树中的各个第一样本的一阶导数之和；提取所述掩码向量与所述第二密文向量的内积运算结果中的第二实部和第二虚部，所述第二实部和第二虚部分别为左子树或右子树中的各个第二样本的二阶导数之和；根据所述第一实部、第一虚部、第二实部和第二虚部，计算根据所述候选分裂方式分裂后的分裂增益。 5.一种基于联邦学习的数据处理方法，应用于存储有多个第二样本和对应的多个标签的第二终端，所述数据处理方法包括：根据各个第二样本的特征值和对应的标签，获取各个第二样本的一阶导数和二阶导数；将各个一阶导数编码为第一明文向量，并将所述第一明文向量同态加密为第一密文向权　利　要　求　书 1/3 页 2 CN 114330758 A 2量；将各个二阶导数编码为第二明文向量，并将所述第二明文向量同态加密为第二密文向量；将所述第一密文向量和第二密文向量发送至第一终端；其中，所述第一密文向量和所述第二密文向量均包括相同数量的数据元素，每个数据元素具有相同的数据结构，对应一个一阶导数或二阶导数，包括两个独立的部分。 6.如权利要求5所示的基于联邦学习的数据处理方法，其中，将各个一阶导数编码为第一明文向量，并将所述第一明文向量同态加密为第一密文向量，包括：将各个一阶导数分别编码为对应的第一明文元素；按照各个一阶导数对应的第二样本在全部第二样本中的顺序，将各个第一明文元素组合为第一明文向量；将所述第一明文向量同态加密为第一密文向量；将各个二阶导数编码为第二明文向量，并将所述第二明文向量同态加密为第二密文向量，包括：将各个二阶导数分别编码为对应的第二明文元素；按照各个二阶导数对应的第二样本在全部第二样本中的顺序，将各个第二明文元素组合为第二明文向量；将所述第二明文向量同态加密为第二密文向量；所述第一明文元素和第二明文元素均为复数结构，并被配置为各自的实部与虚部的绝对值相同。 7.一种基于联邦学习的数据处理装置，应用于存储有多个第一样本的第一终端，所述装置包括：接收模块，被配置为接收第二终端发送的第一密文向量和第二密文向量；处理模块，被配置为根据各个第一样本的特征值，确定全部第一样本的各个候选分裂方式，每个候选分裂方式将全部第一样本划分为两部分；以及基于各个候选分裂方式分别构建掩码向量，每一所述掩码向量表示根据对应候选分裂方式将全部第一样本划分后，各个第一样本为左子树节点或右子树节点；计算模块，被配置为根据每个候选分裂方式的掩码向量、所述第一密文向量和所述第二密文向量，计算各个候选分裂方式的分裂增益；其中，所述第一密文向量、所述第二密文向量和所述掩码向量均包括相同数量的数据元素，每个数据元素具有相同的数据结构，包括两个独立的部分。 8.一种基于联邦学习的数据处理装置，应用于存储有多个第二样本和对应的多个标签的第二终端，所述装置包括：获取模块，被配置为根据各个第二样本的特征值和对应的标签，获取各个第二样本的一阶导数和二阶导数；加密模块，被配置为将各个一阶导数编码为第一明文向量，并将所述第一明文向量同态加密为第一密文向量；以及将各个二阶导数编码为第二明文向量，并将所述第二明文向量同态加密为第二密文向量；权　利　要　求　书 2/3 页 3 CN 114330758 A 3

专利 基于联邦学习的数据处理方法、装置及存储介质

专利基于联邦学习的数据处理方法、装置及存储介质