(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111195188.6
(22)申请日 2021.10.13
(71)申请人 北京工商大 学
地址 100048 北京市海淀区阜成路3 3号
申请人 中国检验检疫科 学研究院
(72)发明人 陈谊 斗海峰 张紫娟 范春林
李海生 张佳琳 刘鸣畅
(74)专利代理 机构 北京万象新悦知识产权代理
有限公司 1 1360
代理人 黄凤茹
(51)Int.Cl.
G01N 24/08(2006.01)
G06N 20/00(2019.01)
(54)发明名称
一种基于特征选择和机器学习算法的洋槐
蜜真伪鉴别方法
(57)摘要
本发明公布了一种基于特征选择和机器学
习算法的洋槐蜜真伪鉴别方法, 包括: 采集真假
蜂蜜样品并生成洋槐蜜数据; 对洋槐蜜数据进行
真假标注得到洋槐蜜数据集; 通过特征选择得到
低维洋槐蜜数据集; 构建蜂蜜真假鉴别模型RF ‑
XGBoost; 对模型进行参数优 化和模型验证; 利用
训练好的模 型对待测蜂蜜进行真伪鉴别。 本发明
方法可有效精 准地鉴别洋 槐蜜的真伪, 避免人工
查看谱图进行真伪鉴别的误差, 有效提高了洋 槐
蜜真伪鉴别的准确率、 均方根误差和AUC值, 降低
了数据特征维数、 模型训练时间、 模型复杂度和
过拟合的风险, 是一种鉴别洋槐蜜真伪的有效方
法。
权利要求书4页 说明书9页 附图4页
CN 113933334 A
2022.01.14
CN 113933334 A
1.一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法, 其特征是, 包括: 采集真
假蜂蜜样品并生成洋槐蜜数据; 对洋槐蜜数据进行真假标注得到洋槐蜜数据集; 通过谱图
特征选择得到低维洋槐蜜数据集; 构建蜂蜜真假鉴别模型RF ‑XGBoost; 对模型进行参数优
化和模型验证; 利用模型对待测蜂蜜 进行真伪鉴别; 具体包括以下步骤:
A: 采集和制备蜂蜜样品, 包括真蜂蜜样品和假蜂蜜样品, 并生成洋槐蜜数据;
通过核磁共振技术, 对蜂蜜样品进行NOESY 1D检测, 得到检测蜂蜜样品的一维氢信号
谱图, 进而对谱图进行数字化转换, 得到多个反映洋槐蜜样品谱图特征 的真假洋槐蜜数据
记录;
B: 对洋槐蜜数据记录进行真假标注, 得到洋槐蜜数据集;
对步骤A中得到的洋槐蜜数据中的每一条记录添加真假标签属性, 用于表示洋槐蜜为
真蜂蜜或掺假蜂蜜; 每一条记录按照一定规则再添加 一个样本名称属 性; 将得到的洋槐蜜
数据集记为D; 洋槐蜜数据集D包括反映洋槐蜜样品谱图的多个特 征;
C: 选择谱图特 征;
从洋槐蜜数据集D反映谱图特征的多个特征中选择重要性程度大的前p个特征为最终
特征集合, 根据最终特 征集合得到低维的洋槐蜜数据集, 记为D ′, 用于模型的构建和训练;
具体是采用随机森林算法得到洋槐蜜数据集D中每个特征的重要性大小, 并对特征重
要性程度大小 进行排序; 然后选取 前p个特征为最终特征集合; 包括如下步骤:
C1: 构建包 含多棵决策树的随机森林;
随机森林中的每一棵决策树均为二叉树, 即为一个分类器; 决策树中的每个节点表示
洋槐蜜数据集的一个子集; 节点纯度最高的特 征作为最优特征;
C2: 特征重要性评估: 计算每个特征Cj的重要性评分VIMj, 即计算第j个特征Cj在随机森
林所有决策树中节点分裂纯度的平均改变量;
计算洋槐蜜数据集D中每个特征在随机森林中的每棵决策树上的贡献; 取平均值, 得到
每个特征的贡献程度即重要性程度, 采用基尼Gini指数表示; Gini指数值越小表示集合中
被选中的元 素被分错的概 率越小, 也 就是集合的纯度越高;
通过式(4)计算得到Gi ni指数的值:
式中, GIm为决策树中节点m的Gini值; pmk代表节点m中样本属于第k类 的概率估计值, K
代表样本集的类别个数;
类别分为真蜂蜜和假蜂蜜两个 类别, 即K=2, 此时节点m的Gi ni指数为式(5):
GIm=2pm(1‑pm) (5)
其中, pm为洋槐蜜样本在节点m属于任意 一类的概 率估计值;
设决策树分枝时, 根据特征F是否取某一可能的值f, 将洋槐蜜数据集合D分割成D1和D2
两部分, 即: D1={(x,y)∈D|F(x)=f},D2=D‑D1; 其中x为洋槐蜜样本, y为样本x对应的标签
值; 则在特 征F在取值f的条件下, 集 合D的基尼指数定义 为式(6):
其中,
和
由式(5)计算, |D|表示 集合D中样本的个数;权 利 要 求 书 1/4 页
2
CN 113933334 A
2特征Cj在节点m中的重要性
即决策树中的节点m分枝前后的Gini指数变化量,
由式(7)计算得到:
其中, GIL和GIR分别表示分枝之后两个新节点的Gi ni指数;
如果特征Cj在第l棵决策树中出现M次, 则Cj在第l棵树的重要性
表示为:
若随机森林共有n棵决策树, 特 征Cj在随机森林中的重要性
表示为:
将所有求得的重要性评分进行归一 化处理, 得到重要性评分VIMj:
C3: 特征选取; 包括:
使用洋槐蜜数据集D中176个特征的重要性评分, 根据重要性进行降序排序之后得到特
征序列 λ( λ1, λ2,…, λp,…, λ176), 假定阈值为γ, 当前p个特征的重要性之和大于等于γ, 即
时, 选择 λ1, λ2,…, λp为最终的特 征集合, 得到p+2维的洋槐蜜数据集D ′;
D: 构建并训练洋槐蜜真伪鉴别模型, 得到训练好的洋槐蜜真伪鉴别模型;
D1: 基于洋槐蜜数据集D ′, 利用scikit ‑learn机器学习库的XGBClassifier方法构建洋
槐蜜真伪鉴别模型, 记为RF ‑XGBoost;
基于树集成模型XGBoost, 对于每一个洋槐蜜样本xi, 根据式(11)累加 多棵树的预测值
来计算该样本最终的预测值
表示为:
式中, K是决策树的总数量;
为样本xi的预测值; fk(xi)为决策树k对洋槐蜜样本xi
的预测值; F 是假设空间, 表示 为式(12):
F={f(x)=ωq(x)}(q:R→T,ω∈RT) (12)
式中, q(x)表示将洋槐蜜样本x映射到决策树对应的叶子节点中, T是决策树中叶子节
点的个数, ωq(x)是叶子节点对洋槐蜜样本x的预测值;
使用目标函数求解每个叶子节点的最优预测值, 使得目标函数最小的ω值即为每个叶
子节点对洋槐蜜样 本的最优 预测值; 目标函数Obj由损失函数和正则化项两部 分组成, 表 示
为式(13):
其中,
为损失函数, 即训练误差, Ω(fk)为正则化项, 用于控制模型的复杂度; 其
中的正则化项表示 为式(14):权 利 要 求 书 2/4 页
3
CN 113933334 A
3
专利 一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 01:59:44上传分享