说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210506489.4 (22)申请日 2022.05.11 (71)申请人 富算科技 (上海) 有限公司 地址 200135 上海市浦东 新区中国(上海) 自由贸易试验区浦 东大道1200号2层A 区 (72)发明人 陈立峰 蔡晓娟 张翔 杨云波  卞阳 邢旭  (74)专利代理 机构 北京超凡宏宇专利代理事务 所(特殊普通 合伙) 11463 专利代理师 蒋姗 (51)Int.Cl. G06N 20/00(2019.01) G06K 9/62(2022.01) G06Q 40/02(2012.01) (54)发明名称 一种基于纵向联邦学习的树模型的构建方 法及系统 (57)摘要 本申请提供一种基于纵向联邦学习的树模 型的构建方法及系统, 基于联邦学习的树模型的 构建过程中, 每次在暂存列表中选择一个带切分 节点来进行分裂, 不再对分裂增益较低、 没必要 进行搜索和分裂的节点进行分裂, 减少了分裂生 成的子节 点, 从而减少了子节 点的分裂特征信息 的计算, 降低了计算量, 提高了树模型的构建效 率。 并且每次从暂存列表中找到最适合分裂的节 点进行分裂, 可以降低更多的误差, 得到更好的 精度。 权利要求书2页 说明书8页 附图2页 CN 114611713 A 2022.06.10 CN 114611713 A 1.一种基于纵向联邦学习的树模型的构建方法, 其特征在于, 纵向联邦学习具有n个参 与方, n大于或等于2, 第一 参与方为含有样本标签值 一方, 所述方法包括: 由每一参与方初始化 一个根节点和一个暂存列表, 并将根节点存放至暂存列表; 对根节点切分子节点; 判断子节点是否为叶子节点, 若存在子节点非叶子节点, 则将非叶子节点的子节点存 放至暂存列 表, 并将根节点 从暂存列表中删除; 将最优分裂特征、 最优分裂点及最优分裂特 征所属参与方编号同步至其 他参与方, 每 个参与方进行切分同步; 每一参与方分别计算暂存列表中每一节点对应的特 征分裂直方图; 对暂存列表中每一节点, 根据 所有特征分裂直方图, 得到最优分裂信 息; 所述最优分裂 信息包括 最优分裂值、 最优分裂点、 最优分裂特 征和最优分裂特 征所属参与方编号; 根据暂存列表中所有节点的最优分裂值, 选择待切分节点; 由最优分裂特征所属参与方, 利用待切分节点的最优分裂特征和最优分裂点, 对待切 分节点切分子节点; 将非 叶子节点的子节点存放至暂存列表, 并将待切分节点从暂存列表 中删除; 将最优分裂特征、 最优分裂点及最优分裂特征所属参与方编号同步至其他参与方, 每个参与方进行切分同步; 以及 确定暂存列表中存在节点, 重复上述步骤, 直到暂存列表为空, 则每个参与 方存储己方 的树模型。 2.如权利要求1所述的方法, 其特征在于, 若根节点的所有子节点均为叶子节点, 则停 止当前树模型的构建; 将最优分裂特征、 最优分裂点及最优分裂特征所属参与方编号同步至其他参与方, 每 个参与方进行切分同步; 以及 每个参与方存 储己方的树模型。 3.如权利要求1所述的方法, 其特征在于, 节点的信息包括样本索引、 最优分裂信 息、 节 点深度和子节点; 其中, 样本索引的获取 方法包括: 由每一参与方对己方 数据进行 特征降维处 理; 由第一参与方对特 征降维处 理后的数据进行样本采样, 得到第一数据和样本索引; 第i参与方同步样本索引, 得到第i数据, (i=2, …, n) 。 4.如权利要求3所述的方法, 其特征在于, 所述特征降维处理包括随机特征选择和EFB 降维处理。 5.如权利要求3所述的方法, 其特征在于, 所述每一参与方分别计算根节点的特征分裂 直方图, 包括: 由第一参与方根据残差值与第 一数据, 计算根节点的特征分裂直方图; 第 i参与方根据 由第一参与方加密的残差值与第i数据, 计算 根节点的特 征分裂直方图。 6.如权利要求3所述的方法, 其特征在于, 所述每一参与方分别计算根节点的特征分裂 直方图, 包括: 由第一参与方根据梯度和权重的内积与第一数据, 计算根节点的特征分裂直方图; 第i 参与方根据由第一 参与方加密的内积与第i数据, 计算 根节点的特 征分裂直方图。 7.如权利要求1所述的方法, 其特征在于, 所述判断子节点是否为叶子节点的方法, 包权 利 要 求 书 1/2 页 2 CN 114611713 A 2括: 若子节点达 到预设停止分裂条件, 则子节点 为叶节点; 其中, 预设停止分裂条件 包括: 所有样本标签为同一类; 或, 样本数个数小于预设阈值; 或, 当前节点所在树的层数达 到预设树的深度; 或, 当前节点的最优分裂值大于预设阈值。 8.如权利要求1所述的方法, 其特征在于, 所述根据暂存列表中所有节点的最优分裂 值, 选择待切分节点, 包括: 通过计算所有最优分裂值中的最小基尼、 最大信息增益或最大信息增益比, 将对应的 节点作为待切分节点。 9.如权利要求1所述的方法, 其特征在于, 所述每个参与方存储己方的树模型之后, 还 包括: 由每一参与 方, 判断己方的树模型的数量是否达到预设值或判断损失值是否达到预设 值, 若达到, 则每一 参与方保存己方树模型; 若未达 到, 则进行 下一棵树模型的构建。 10.一种基于纵向联邦学习的树模型的构建系统, 其特 征在于, 包括: 初始化模块, 用于由每一参与方初始化一个根节点和一个暂存列表, 并将根节点存放 至暂存列表; 根节点切分模块, 用于对根节点切分子节点; 第一判断模块, 用于判断子节点是否为叶子节点, 若存在子节点非叶子节点, 则: 将非 叶子节点的子节点存放至暂存列表, 并将根节点从暂存列 表中删除; 将最优分裂特征、 最优 分裂点及最优分裂特 征所属参与方编号同步至其 他参与方, 每 个参与方进行切分同步; 直方图计算模块, 用于每一参与 方分别计算暂存列表中每一节点对应的特征分裂直方 图; 分裂信息计算模块, 用于对暂存列表中每一节点, 根据所有特征分裂直方图, 得到最优 分裂信息; 所述最优分裂信息包括最优分裂值、 最优分裂点、 最优分裂特征和最优分裂特征 所属参与方编号; 子节点切分模块, 用于根据暂存列表中所有节点的最优分裂值, 选择待切分节点; 由最 优分裂特征所属 参与方, 利用待切分节点的最优分裂特征和最优分裂点, 对待切分节点切 分子节点; 将非叶子节点的子节点存放至暂存列 表, 并将待切分节点 从暂存列表中删除; 将 最优分裂特征、 最优分裂点及最优分裂特征所属 参与方编号同步至其他参与方, 每个参与 方进行切分同步; 以及 第二判断模块, 用于确定暂存列表中存在节点, 重复上述步骤, 直到暂存列表为空, 则 每个参与方存 储己方的树模型。权 利 要 求 书 2/2 页 3 CN 114611713 A 3

.PDF文档 专利 一种基于纵向联邦学习的树模型的构建方法及系统

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于纵向联邦学习的树模型的构建方法及系统 第 1 页 专利 一种基于纵向联邦学习的树模型的构建方法及系统 第 2 页 专利 一种基于纵向联邦学习的树模型的构建方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 16:59:56上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。