专利一种基于OT协议的纵向联邦学习样本不均衡处理方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111669736.4 (22)申请日 2021.12.3 0 (71)申请人天翼电子商务有限公司地址 100037 北京市西城区阜成门外大街 31号4层429D (72)发明人喻博　史楠迪　毛万葵　贺伟　 (51)Int.Cl. G06N 20/00(2019.01) G06K 9/62(2022.01) G06F 21/62(2013.01) G06F 21/60(2013.01) H04L 9/30(2006.01) H04L 9/08(2006.01) H04L 9/40(2022.01) H04L 67/01(2022.01) (54)发明名称一种基于OT协议的纵向联邦学习样本不均衡处理方法 (57)摘要本发明公开了一种基于OT协议的纵向联邦学习样本不均衡处理方法。本发明尤其适用于类似于电信反诈项目中样本极不平衡的场景，在多方已经进行加密数据对齐的前提下，利用OT协议在不泄露样本标签信息以及数据合作方具体数据特征的情况下合成少数类样本，以此解决模型拟合效果不理想的情况；从原始数据着手尽可能挖掘原始数据的隐藏信息，适用于各类大数据的纵向联邦学习场景，优于现有技术从模型着手由于业务先验知识不足导致模型的效果很差。另外本发明在利用OT协议计算距离找到接近正样本的样本后使用中心化机器学习中改进的适用于隐私计算的SMOTE算法来合成少数类样本。权利要求书1页说明书4页附图2页 CN 114548419 A 2022.05.27 CN 114548419 A 1.一种基于OT协议的纵向联邦学习样本不均衡处理方法，其特征在于，包括以下步骤：步骤(1)，双方将对齐后的样本根据对齐id升序排序；各方将特征做归一化处理以便于计算距离；步骤(2)，标签拥有方A计算正负样本比例b(b≤1/100)，双方对齐后的样本量N(N≥100 万)，根据正样本数量选取合适的迭代轮数T；确定每轮计算的正样本数量St，负样本数Sf，其中[TSt]＝N， St/Sf＝b，每一轮负样本随机采样，正样本通过boostrap采样直至所有正样本在N轮迭代中全部被采样，；确定每轮的样本数ST＝St+Sf，其中一般使1000≤ST≤10000；并将采样的样本索引发给B；步骤(3)，数据拥有方B首先生成ST个RSA公私钥对，公私钥对用每轮采样样本的索引标记，并将所有公钥发给A；步骤(4)， A生产一个随机数r， A收到公钥后用其中正样本索引对应公钥加密r得到r_ enc，并将加密结果发给B， B用ST个私钥对r_enc分别解密得到 B用其他所有样本到样本ST的距离矩阵中的每一行元素对求异或，并将异或结果发给 A， A再用随机数r对求异或得到 A在找到正样本对应的距离与A侧自己计算的所有其余样本到样本ST的距离求和，找到距离正样本最近的m个样本；步骤(5)， A找到距离正样本最近的m(m通常取5以下的正整数)个样本后，双方开始使用改进的SMOTE算法生成正样本数据，具体流程如下： a)标签方A生成一个随机数矩阵Rmx， x代表A拥有的特征数量， Rmx中每个值大小都是(0， 1)，数据拥有方B生成一个随机数矩阵Rmy， y代表A拥有的特征数量， Rmy中每个值大小都是 (0， 1)； b)A根据常规的SMOTE算法生成正样本自己侧的特征，然后A随机抽取ST个样本，这ST个样本包含正样本以及距离正样本最近的m个样本，然后将这ST个样本的索引发给B，然后B 根据这ST个样本两两之间生成新的样本然后单独存储矩阵每个元素是一个字典，字典的键是两两样本索引，值是两两样本生成的新的样本；该矩阵保留在B处，等到进行联邦学习建模时， A再通过OT协议查询正样本跟周围m个样本新生成的正样本在 B处的特征；步骤(6)，重复步骤(3)， (4)， (5)直到达到迭代轮数T和满足要求的正样本的数量。权　利　要　求　书 1/1 页 2 CN 114548419 A 2一种基于 OT协议的纵向联邦学习样本不均衡处理方法技术领域 [0001]本发明涉及纵向联邦学习领域，特别涉及一种基于OT协议的纵向联邦学习样本不均衡处理方法。背景技术 [0002]纵向联邦学习是指在联邦学习领域，多个参与方所有的用户ID重叠程度很高而用户属性特征重叠程度很低的这样一种模式，例如同一个地区的银行和电商之间拥有几乎相同的用户群体但是每个平台收集的用户特征几乎不同。在纵向联邦学习建模时会扩展用户的属性特征。 [0003]在纵向联邦学习建模中，存在很多样本标签不均衡的情况，也就是正负样本的比例差距在100倍以上。如果在这种情况下使用一般的联邦学习模型就无法很好学习到这类样本的特征，导致模型的拟合效果很差，多数情况下数据的缺陷可以选用合适的模型解决，但是当样本失衡比例过大时，模型就显得很不足，所以需要选用合适的方法从数据着手解决数据失衡的问题，让模型可以尽可能学习到正样本的特征，但是在模型训练的过程中由于隐私保护的问题需要保护数据拥有方的隐私数据，这时候就需要多方安全计算的技术去保证隐私安全，而OT协议恰巧可以解决这一问题； [0004]当前解决隐私保护联邦学习数据不均衡的方法主要有两种，一种就是基于混合采样的不均衡数据的平衡方案，根据不同数据集的正负样本不平衡比例，基于合成少数样本与聚类下采样集成方法结合的混合采样方法，获得平衡数据集；结合数据集实时监控，在联邦学习场景下对不均衡数据集的自动处理和及时更新，从而通过结合数据级和集成算法的方式来处理不均衡数据集；还有一种方法就是从模型着手，使用集成模型解决数据不均衡问题，例如， balancecascade算法，将adab oost作为基分类器，在每一轮训练时都使用多数类与少数类数量相等的训练集，然后使用该分类器对全体多数类进行预测，通过控制分类阈值来控制假阳率(fp)，将所有判断正确的类删除，然后进入下一轮迭代继续降低多数类样本的数量。但是由于算法级的不均衡数据处理方法代价敏感学习中的代价矩阵需要由领域专家根据任务的先验知识提供，这在许多现实问题中显然是不可用的，并且不能泛化到不同任务，对于特定问题设计的代价矩阵只能用于该特定任务，在其他任务上使用时并不能保证良好的性能表现。发明内容 [0005]本发明要解决的技术问题是克服现有技术的缺陷，提供一种基于OT协议的纵向联邦学习样本不均衡处理方法。 [0006]本发明提供了如下的技术方案： [0007]本发明提供一种基于OT协议的纵向联邦学习样本不均衡处理方法，包括以下步骤： [0008]步骤(1)，双方将对齐后的样本根据对齐id升序排序；各方将特征做归一化处理以说　明　书 1/4 页 3 CN 114548419 A 3

专利 一种基于OT协议的纵向联邦学习样本不均衡处理方法

专利一种基于OT协议的纵向联邦学习样本不均衡处理方法