专利一种针对不平衡样本的机器学习分类方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111461693.0 (22)申请日 2021.12.02 (71)申请人玖特（北京）医学科技有限公司地址 100872 北京市海淀区中关村大街1 1 号10层10 53号 (72)发明人单曙光　 (51)Int.Cl. G06K 9/62(2022.01) G06N 5/00(2006.01) G06N 20/00(2019.01) (54)发明名称一种针对不平衡样本的机器学习分类方法 (57)摘要本发明涉及机器学习分类方法技术领域，尤其涉及一种针对不平衡样本的机器学习分类方法，针对当前现有的针对不平衡样本的机器学习分类方法对于样本比例超过4： 1的仍存在效果不好的问题，现提出如下方案，其中包括以下步骤： S1：下定义， S2：定义输入， S3：公式计算， S4：输出及处理，本发明的目的是通过利用相对危险度来替换分类回归树的建立树分割点的基尼指数来解决样本分类比例超过4： 1的不平衡数据的问题，且在正负样本为40： 1的样本集上，此算法测试效果为准确性80％，远高于SVC等常用机器学习算法。权利要求书2页说明书6页附图1页 CN 114219018 A 2022.03.22 CN 114219018 A 1.一种针对不平衡样本的机器学习分类方法，其特征在于，包括以下步骤： S1：下定义：根据相对危险度的非暴露组和暴露组的定义进行类似定义，并通过公式下定义； S2：定义输入：通过定义输入代入相应公式，得到对应取值及对应的损失函数值 RR； S3：公式计算：根据R R公式计算训练集T损失函数值R R； S4：输出及处理：输出： f*， RR，并根据最优划分特征f*及其取值将训练集T 划分为T1和T2。 2.根据权利要求1所述的一种针对不平衡样本的机器学习分类方法，其特征在于，所述 S1中，通过公式进行定义，其中公式为 RR＝p/q或者R R＝(p(1‑p))/(q(1‑q)) (3) High_per＝high /low (4)。 3.根据权利要求2所述的一种针对不平衡样本的机器学习分类方法，其特征在于，通过根据相对危险度的非暴露组和暴露组的定义，采用相似方法定义了高精度组和低精度组，定义p为错误预测的样本数量与低精度预测样本总数的比值，变量q定义为不正确预测的样本数量与高精度预测样本总数的比值，通过此定义，推导出错误预测的样本数量+不正确预测的样本数量等于错误识别的样本个数，并在 p和q的分子上加1。 4.根据权利要求1所述的一种针对不平衡样本的机器学习分类方法，其特征在于，所述 S2中，进行定义输入时训练集为T＝{( x1， y1)， (x2， y2)， ...， ( xN， yN)}，特征集为F＝{f1， f2， ...， fd}，最少样本集为min_sample＝k，损失函数阈值为threshold＝ ε，并以node为根节点，其中以node为根节点时特征集F为空或训练集T中样本关于特征集F中类别全部相同时需将node标记为叶结点，训练集T中的样本数量少于min_ sample需将该标记为叶结点，且其类别标记为T中样本数最多的类。 5.根据权利要求4所述的一种针对不平衡样本的机器学习分类方法，其特征在于，从特征集F中选择最优划分特征f*，并得到对应取值及对应的损失函数值RR，其中训练集为T＝{(x1， y1)， (x2， y2)， ...， (xN， yN)}，特征集为F＝{f1， f2， ...， fd}，阈值为θ1和 θ2，且θ1＜ θ2。 6.根据权利要求1所述的一种针对不平衡样本的机器学习分类方法，其特征在于，所述 S3中，根据R R公式计算训练集T损失函数值R R，其中令且对于特征集F中的每一个特征f执行，并对于训练集T中关于特征f的每一个取值fvalue执行，根据fvalue将训练集划分为低置信度训练集和高置信度训练集，分别记为权　利　要　求　书 1/2 页 2 CN 114219018 A 2通过计算将Tlow和Thigh的损失函数值记为RR(Tlow， Thigh)， (RR(Tlow， Thigh)＞1并且RR(Tlow， Thigh)＞RR，同时θ1＜high_per≤θ2， f*＝{f}， RR＝RR(Tlow， Thigh)。 7.根据权利要求1所述的一种针对不平衡样本的机器学习分类方法，其特征在于，所诉 S4中，输出f*， RR，并根据最优划分特征f*及其取值将训练集T划分为T1和T2，生成两个分支结点，其中左分支的错误识别的数量大于右分支的数据量定义为Tleft＝T1， Tright＝T2，左分支的错误识别的数量小于右分支的数据量定义为Tleft＝T2， Tright＝T1。 8.根据权利要求7所述的一种针对不平衡样本的机器学习分类方法，其特征在于， f*或者Tleft或者Trifht为空， RR＜ ε，将分支结点标记为叶结点，并将其类别标记为T中样本数最多的类， f*或者Tleft或者Trifht不为空， RR不小于ε需重新定义输入Tleft， F\{f*}， k， θ和Tright，其中F\{f*}， k， θ 为分支结点重新执行上述步骤，输出以n ode为根结点的一棵R R决策树。权　利　要　求　书 2/2 页 3 CN 114219018 A 3

专利 一种针对不平衡样本的机器学习分类方法

专利一种针对不平衡样本的机器学习分类方法