说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111669736.4 (22)申请日 2021.12.3 0 (71)申请人 天翼电子商务有限公司 地址 100037 北京市西城区阜成门外大街 31号4层429D (72)发明人 喻博 史楠迪 毛万葵 贺伟  (51)Int.Cl. G06N 20/00(2019.01) G06K 9/62(2022.01) G06F 21/62(2013.01) G06F 21/60(2013.01) H04L 9/30(2006.01) H04L 9/08(2006.01) H04L 9/40(2022.01) H04L 67/01(2022.01) (54)发明名称 一种基于OT协议的纵向联邦学习样本不均 衡处理方法 (57)摘要 本发明公开了一种基于OT协议的纵向联邦 学习样本不均衡处理方法。 本发 明尤其适用于类 似于电信反诈项目中样本极不平衡的场景, 在多 方已经进行加密数据对齐的前提下, 利用OT协议 在不泄露样本标签信息以及数据合作方具体数 据特征的情况下合成少数类样 本, 以此解决模型 拟合效果不理想的情况; 从原始数据着手尽可能 挖掘原始数据的隐藏信息, 适用于各类大数据的 纵向联邦 学习场景, 优于 现有技术从模 型着手由 于业务先验知识不足导致模型的效果很差。 另外 本发明在利用OT协议计算距离找到接近正样本 的样本后使用中心化机器学习中改进的适用于 隐私计算的SMOTE算法来 合成少数类样本 。 权利要求书1页 说明书4页 附图2页 CN 114548419 A 2022.05.27 CN 114548419 A 1.一种基于OT协议的纵向联邦学习样本不均衡处 理方法, 其特 征在于, 包括以下步骤: 步骤(1), 双方将对齐后的样本根据对齐id升序排序; 各方将特征做归一化处理以便于 计算距离; 步骤(2), 标签拥有方A计算正负样本比例b(b≤1/100), 双 方对齐后的样本量N(N≥100 万), 根据正样本数量选取合适的迭代轮数T; 确定每轮计算的正样本数量St, 负样本数Sf, 其 中[TSt]=N, St/Sf=b, 每一轮负样本随机采样, 正样本通过boostrap采样直至所有正样本 在N轮迭代中全部被采样, ; 确定每轮的样本数ST=St+Sf, 其中一般使1000≤ST≤10000; 并 将采样的样本索引发给B; 步骤(3), 数据拥有方B首先生成ST个RSA公私钥对, 公私钥对用每轮采样样本的索引标 记, 并将所有公钥发给A; 步骤(4), A生产一个随机数r, A收到公钥后用其中正样本索引对应公钥加密r得到r_ enc, 并将加密结果发给B, B用ST个私钥对r_enc分别解密得到 B用其他所有样本 到样本ST的距离 矩阵中的每一行元素对 求异或, 并将异或结果 发给 A, A再用随机数r对 求异或得到 A在 找到正样本对应的距离与A侧自己计 算的所有其 余样本到样本ST的距离求和, 找到距离正样本最近的m个样本; 步骤(5), A找到距离正样本最近的m(m通常取5以下的正整数)个样本后, 双方开始使用 改进的SMOTE算法生成正样本数据, 具体流 程如下: a)标签方A生成一个随机数矩阵Rmx, x代表A拥有的特征数量, Rmx中每个值大小都是(0, 1), 数据拥有方B生成一个随机数矩阵Rmy, y代表A拥有的特征数量, Rmy中每个值大小都是 (0, 1); b)A根据常规的SMOTE算法生成正样本自己侧的特征, 然后A随机抽取ST个样本, 这ST个 样本包含正样本以及距离正样本最近的m个样本, 然后将这ST个样本的索引发给B, 然后B 根 据这ST个样本两两之间生成新的样本然后单独存储 矩阵 每个元素是一个字典, 字典的键是两两样本索引, 值是两两样本生成的新的样本; 该矩阵保留在B处, 等到进行联 邦学习建模时, A再通过OT协议 查询正样本跟周围m个样本新 生成的正样本在 B处的特征; 步骤(6), 重复步骤(3), (4), (5)直到 达到迭代轮数T和满足要求的正样本的数量。权 利 要 求 书 1/1 页 2 CN 114548419 A 2一种基于 OT协议的纵向联邦学习样本不均衡处理 方法 技术领域 [0001]本发明涉及纵向联邦学习领域, 特别涉及一种基于OT协议的纵向联邦学习样本不 均衡处理方法。 背景技术 [0002]纵向联邦学习是指在联邦学习领域, 多个参与方所有的用户ID重叠程度很高而用 户属性特征重叠程度很低的这样一种模式, 例如同一个地区的银行和电商之间拥有几乎相 同的用户群体但是每个平台收集的用户特征几乎不同。 在纵向联邦学习建模时会扩展用户 的属性特 征。 [0003]在纵向联邦学习建模中, 存在很多样本标签不均衡的情况, 也就是正负样本 的比 例差距在100倍以上。 如果在这种情况下使用一般的联邦学习模型就无法很好学习到这类 样本的特征, 导致模 型的拟合效果很差, 多 数情况下数据的缺陷可以选用合适的模型解决, 但是当样本失衡比例过大时, 模型就显得很不足, 所以需要选用合适的方法从数据着手解 决数据失衡的问题, 让模型可以尽可能学习到正样本的特征, 但是在模型训练的过程中由 于隐私保护的问题需要保护数据拥有方的隐私数据, 这时候就需要多方安全计算的技术去 保证隐私安全, 而OT协议恰巧可以解决这 一问题; [0004]当前解决隐私保护联邦学习数据不均衡的方法主要有两种, 一种就是基于混合采 样的不均衡数据的平衡方案, 根据不同数据集的正负样本不平衡比例, 基于合成少数样本 与聚类下采样集 成方法结合的混合采样方法, 获得平衡数据集; 结合数据集 实时监控, 在联 邦学习场景下对不均衡数据集的自动处理和及时更新, 从而通过结合数据级和集成算法的 方式来处理不均衡数据集; 还有一种 方法就是从模型着手, 使用集成模型解决数据不均衡 问题, 例如, balancecascade算法, 将adab oost作为基分类器, 在每一轮训练时都使用多数 类与少数类数量相等的训练集, 然后使用该分类器对全体多数类进行预测, 通过控制分类 阈值来控制假阳率(fp), 将所有判断正确的类删除, 然后进入下一轮迭代继续降低多数类 样本的数量。 但是由于算法级的不均衡数据处理方法代价敏感学习中的代价矩阵需要由领 域专家根据任务的先验知识提供, 这在许多现实问题中显然是不可用的, 并且不能泛化到 不同任务, 对于特定 问题设计的代价矩阵只能用于该特定任务, 在其他任务上使用时并不 能保证良好的性能表现。 发明内容 [0005]本发明要解决的技术问题是克服现有技术的缺陷, 提供一种基于OT协议的纵向联 邦学习样本不均衡处 理方法。 [0006]本发明提供了如下的技 术方案: [0007]本发明提供一种基于OT协议的纵向联邦学习样本不均衡处理方法, 包括以下步 骤: [0008]步骤(1), 双方将对齐后的样本根据 对齐id升序排序; 各方将特征做归一化 处理以说 明 书 1/4 页 3 CN 114548419 A 3

.PDF文档 专利 一种基于OT协议的纵向联邦学习样本不均衡处理方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于OT协议的纵向联邦学习样本不均衡处理方法 第 1 页 专利 一种基于OT协议的纵向联邦学习样本不均衡处理方法 第 2 页 专利 一种基于OT协议的纵向联邦学习样本不均衡处理方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:27:57上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。