说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111461693.0 (22)申请日 2021.12.02 (71)申请人 玖特 (北京) 医学 科技有限公司 地址 100872 北京市海淀区中关村大街1 1 号10层10 53号 (72)发明人 单曙光  (51)Int.Cl. G06K 9/62(2022.01) G06N 5/00(2006.01) G06N 20/00(2019.01) (54)发明名称 一种针对不平衡样本的机 器学习分类方法 (57)摘要 本发明涉及机器学习分类方法技术领域, 尤 其涉及一种针对不平衡样本的机器学习分类方 法, 针对当前现有的针对不平衡样 本的机器学习 分类方法对于样本比例超 过4: 1的仍存在效果不 好的问题, 现提出如下方案, 其中包括以下步骤: S1: 下定义, S2: 定义输入, S3: 公式计算, S4: 输出 及处理, 本发 明的目的是通过利用相对危险度来 替换分类回归树的建立树分割点的基尼指数来 解决样本分类比例超过4: 1的不平衡数据的问 题, 且在正负样本为40: 1的样本集上, 此算法测 试效果为准确性80%, 远高于SVC等常用机器学 习算法。 权利要求书2页 说明书6页 附图1页 CN 114219018 A 2022.03.22 CN 114219018 A 1.一种针对不平衡样本的机器学习分类方法, 其特 征在于, 包括以下步骤: S1: 下定义: 根据相对危险度的非暴露组和暴露组的定义进行类似定义, 并通过公式下 定义; S2: 定义输入: 通过定义输入代入相应公式, 得到对应取值 及对应的损失函数值 RR; S3: 公式计算: 根据R R公式计算训练集T损失函数值R R; S4: 输出及处理: 输出: f*, RR, 并根据最优划分特征f*及其取值 将训练集T 划分为T1和T2。 2.根据权利要求1所述的一种针对不平衡样本的机器学习分类方法, 其特征在于, 所述 S1中, 通过公式进行定义, 其中公式为 RR=p/q或者R R=(p(1‑p))/(q(1‑q)) (3) High_per=high /low (4)。 3.根据权利要求2所述的一种针对不平衡样本的机器学习分类方法, 其特征在于, 通过 根据相对危险度的非暴露组和暴露组的定义, 采用相似方法定义了高精度 组和低精度组, 定义p为错误预测的样本数量与低精度预测样 本总数的比值, 变量q定义为不正确预测的样 本数量与高精度预测样本总数的比值, 通过此定义, 推导出错误预测的样本数量+不正确预 测的样本数量 等于错误识别的样本个数, 并在 p和q的分子上加1。 4.根据权利要求1所述的一种针对不平衡样本的机器学习分类方法, 其特征在于, 所述 S2中, 进行定义输入时训练集为T={( x1, y1), (x2, y2), ..., ( xN, yN)}, 特征集为F={f1, f2, ..., fd}, 最少样本集为min_sample=k, 损失函数阈值为threshold= ε, 并以node为根节 点, 其中以node为根节点时特征集F为空或训练集T中样本关于特征集F中类别全部相同时 需将node标记为叶结点, 训练集T中的样 本数量少于min_ sample需将该标记 为叶结点, 且其 类别标记为T中样本数最多的类。 5.根据权利要求4所述的一种针对不平衡样本的机器学习分类方法, 其特征在于, 从特 征集F中选择最优划分特征f*, 并得到对应取值 及对应的损失函数值RR, 其中训练集 为T={(x1, y1), (x2, y2), ..., (xN, yN)}, 特征集为F={f1, f2, ..., fd}, 阈值为θ1和 θ2, 且θ1< θ2。 6.根据权利要求1所述的一种针对不平衡样本的机器学习分类方法, 其特征在于, 所述 S3中, 根据R R公式计算训练集T损失函数值R R, 其中令 且对于特征集F中的每一个特征f执行, 并对于 训练集T中关于特征f的每一个取 值fvalue执行, 根据fvalue将训练集划分为低置信度训练集和 高置信度训练集, 分别记为 权 利 要 求 书 1/2 页 2 CN 114219018 A 2通过计算将Tlow和Thigh的损失函数值记为RR(Tlow, Thigh), (RR(Tlow, Thigh)>1并且RR(Tlow, Thigh)>RR, 同时θ1<high_per≤θ2, f*={f}, RR=RR(Tlow, Thigh)。 7.根据权利要求1所述的一种针对不平衡样本的机器学习分类方法, 其特征在于, 所诉 S4中, 输出f*, RR, 并根据最优划分特征f*及其取值 将训练集T划分为T1和T2, 生 成两个分支结点, 其中左分支的错误识别的数量大于右分支的数据量定义为Tleft=T1, Tright=T2, 左分支的错 误识别的数量小于右分支的数据量定义 为Tleft=T2, Tright=T1。 8.根据权利要求7所述的一种针对不平衡样本的机器学习分类方法, 其特征在于, f*或 者Tleft或者Trifht为空, RR< ε, 将分支结点标记为叶结点, 并将其类别标记为T中样 本数最多 的类, f*或者Tleft或者Trifht不为空, RR不小于ε需重新定义输入Tleft, F\{f*}, k, θ和Tright, 其 中F\{f*}, k, θ 为分支结点重新执 行上述步骤, 输出以n ode为根结点的一棵R R决策树。权 利 要 求 书 2/2 页 3 CN 114219018 A 3

.PDF文档 专利 一种针对不平衡样本的机器学习分类方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种针对不平衡样本的机器学习分类方法 第 1 页 专利 一种针对不平衡样本的机器学习分类方法 第 2 页 专利 一种针对不平衡样本的机器学习分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:20:45上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。