专利一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111195188.6 (22)申请日 2021.10.13 (71)申请人北京工商大学地址 100048 北京市海淀区阜成路3 3号申请人中国检验检疫科学研究院 (72)发明人陈谊　斗海峰　张紫娟　范春林　李海生　张佳琳　刘鸣畅　 (74)专利代理机构北京万象新悦知识产权代理有限公司 1 1360 代理人黄凤茹 (51)Int.Cl. G01N 24/08(2006.01) G06N 20/00(2019.01) (54)发明名称一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法 (57)摘要本发明公布了一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法，包括：采集真假蜂蜜样品并生成洋槐蜜数据；对洋槐蜜数据进行真假标注得到洋槐蜜数据集；通过特征选择得到低维洋槐蜜数据集；构建蜂蜜真假鉴别模型RF ‑ XGBoost；对模型进行参数优化和模型验证；利用训练好的模型对待测蜂蜜进行真伪鉴别。本发明方法可有效精准地鉴别洋槐蜜的真伪，避免人工查看谱图进行真伪鉴别的误差，有效提高了洋槐蜜真伪鉴别的准确率、均方根误差和AUC值，降低了数据特征维数、模型训练时间、模型复杂度和过拟合的风险，是一种鉴别洋槐蜜真伪的有效方法。权利要求书4页说明书9页附图4页 CN 113933334 A 2022.01.14 CN 113933334 A 1.一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法，其特征是，包括：采集真假蜂蜜样品并生成洋槐蜜数据；对洋槐蜜数据进行真假标注得到洋槐蜜数据集；通过谱图特征选择得到低维洋槐蜜数据集；构建蜂蜜真假鉴别模型RF ‑XGBoost；对模型进行参数优化和模型验证；利用模型对待测蜂蜜进行真伪鉴别；具体包括以下步骤： A：采集和制备蜂蜜样品，包括真蜂蜜样品和假蜂蜜样品，并生成洋槐蜜数据；通过核磁共振技术，对蜂蜜样品进行NOESY 1D检测，得到检测蜂蜜样品的一维氢信号谱图，进而对谱图进行数字化转换，得到多个反映洋槐蜜样品谱图特征的真假洋槐蜜数据记录； B：对洋槐蜜数据记录进行真假标注，得到洋槐蜜数据集；对步骤A中得到的洋槐蜜数据中的每一条记录添加真假标签属性，用于表示洋槐蜜为真蜂蜜或掺假蜂蜜；每一条记录按照一定规则再添加一个样本名称属性；将得到的洋槐蜜数据集记为D；洋槐蜜数据集D包括反映洋槐蜜样品谱图的多个特征； C：选择谱图特征；从洋槐蜜数据集D反映谱图特征的多个特征中选择重要性程度大的前p个特征为最终特征集合，根据最终特征集合得到低维的洋槐蜜数据集，记为D ′，用于模型的构建和训练；具体是采用随机森林算法得到洋槐蜜数据集D中每个特征的重要性大小，并对特征重要性程度大小进行排序；然后选取前p个特征为最终特征集合；包括如下步骤： C1：构建包含多棵决策树的随机森林；随机森林中的每一棵决策树均为二叉树，即为一个分类器；决策树中的每个节点表示洋槐蜜数据集的一个子集；节点纯度最高的特征作为最优特征； C2：特征重要性评估：计算每个特征Cj的重要性评分VIMj，即计算第j个特征Cj在随机森林所有决策树中节点分裂纯度的平均改变量；计算洋槐蜜数据集D中每个特征在随机森林中的每棵决策树上的贡献；取平均值，得到每个特征的贡献程度即重要性程度，采用基尼Gini指数表示； Gini指数值越小表示集合中被选中的元素被分错的概率越小，也就是集合的纯度越高；通过式(4)计算得到Gi ni指数的值：式中， GIm为决策树中节点m的Gini值； pmk代表节点m中样本属于第k类的概率估计值， K 代表样本集的类别个数；类别分为真蜂蜜和假蜂蜜两个类别，即K＝2，此时节点m的Gi ni指数为式(5): GIm＝2pm(1‑pm) (5) 其中， pm为洋槐蜜样本在节点m属于任意一类的概率估计值；设决策树分枝时，根据特征F是否取某一可能的值f，将洋槐蜜数据集合D分割成D1和D2 两部分，即： D1＝{(x,y)∈D|F(x)＝f},D2＝D‑D1；其中x为洋槐蜜样本， y为样本x对应的标签值；则在特征F在取值f的条件下，集合D的基尼指数定义为式(6)：其中，和由式(5)计算， |D|表示集合D中样本的个数；权　利　要　求　书 1/4 页 2 CN 113933334 A 2特征Cj在节点m中的重要性即决策树中的节点m分枝前后的Gini指数变化量，由式(7)计算得到：其中， GIL和GIR分别表示分枝之后两个新节点的Gi ni指数；如果特征Cj在第l棵决策树中出现M次，则Cj在第l棵树的重要性表示为：若随机森林共有n棵决策树，特征Cj在随机森林中的重要性表示为：将所有求得的重要性评分进行归一化处理，得到重要性评分VIMj： C3：特征选取；包括：使用洋槐蜜数据集D中176个特征的重要性评分，根据重要性进行降序排序之后得到特征序列 λ( λ1, λ2,…, λp,…, λ176)，假定阈值为γ，当前p个特征的重要性之和大于等于γ，即时，选择 λ1, λ2,…, λp为最终的特征集合，得到p+2维的洋槐蜜数据集D ′； D：构建并训练洋槐蜜真伪鉴别模型，得到训练好的洋槐蜜真伪鉴别模型； D1：基于洋槐蜜数据集D ′，利用scikit ‑learn机器学习库的XGBClassifier方法构建洋槐蜜真伪鉴别模型，记为RF ‑XGBoost；基于树集成模型XGBoost，对于每一个洋槐蜜样本xi，根据式(11)累加多棵树的预测值来计算该样本最终的预测值表示为：式中， K是决策树的总数量；为样本xi的预测值； fk(xi)为决策树k对洋槐蜜样本xi 的预测值； F 是假设空间，表示为式(12)： F＝{f(x)＝ωq(x)}(q:R→T,ω∈RT) (12) 式中， q(x)表示将洋槐蜜样本x映射到决策树对应的叶子节点中， T是决策树中叶子节点的个数， ωq(x)是叶子节点对洋槐蜜样本x的预测值；使用目标函数求解每个叶子节点的最优预测值，使得目标函数最小的ω值即为每个叶子节点对洋槐蜜样本的最优预测值；目标函数Obj由损失函数和正则化项两部分组成，表示为式(13)：其中, 为损失函数，即训练误差， Ω(fk)为正则化项，用于控制模型的复杂度；其中的正则化项表示为式(14)：权　利　要　求　书 2/4 页 3 CN 113933334 A 3

专利 一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法

专利一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法