说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111195188.6 (22)申请日 2021.10.13 (71)申请人 北京工商大 学 地址 100048 北京市海淀区阜成路3 3号 申请人 中国检验检疫科 学研究院 (72)发明人 陈谊 斗海峰 张紫娟 范春林  李海生 张佳琳 刘鸣畅  (74)专利代理 机构 北京万象新悦知识产权代理 有限公司 1 1360 代理人 黄凤茹 (51)Int.Cl. G01N 24/08(2006.01) G06N 20/00(2019.01) (54)发明名称 一种基于特征选择和机器学习算法的洋槐 蜜真伪鉴别方法 (57)摘要 本发明公布了一种基于特征选择和机器学 习算法的洋槐蜜真伪鉴别方法, 包括: 采集真假 蜂蜜样品并生成洋槐蜜数据; 对洋槐蜜数据进行 真假标注得到洋槐蜜数据集; 通过特征选择得到 低维洋槐蜜数据集; 构建蜂蜜真假鉴别模型RF ‑ XGBoost; 对模型进行参数优 化和模型验证; 利用 训练好的模 型对待测蜂蜜进行真伪鉴别。 本发明 方法可有效精 准地鉴别洋 槐蜜的真伪, 避免人工 查看谱图进行真伪鉴别的误差, 有效提高了洋 槐 蜜真伪鉴别的准确率、 均方根误差和AUC值, 降低 了数据特征维数、 模型训练时间、 模型复杂度和 过拟合的风险, 是一种鉴别洋槐蜜真伪的有效方 法。 权利要求书4页 说明书9页 附图4页 CN 113933334 A 2022.01.14 CN 113933334 A 1.一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法, 其特征是, 包括: 采集真 假蜂蜜样品并生成洋槐蜜数据; 对洋槐蜜数据进行真假标注得到洋槐蜜数据集; 通过谱图 特征选择得到低维洋槐蜜数据集; 构建蜂蜜真假鉴别模型RF ‑XGBoost; 对模型进行参数优 化和模型验证; 利用模型对待测蜂蜜 进行真伪鉴别; 具体包括以下步骤: A: 采集和制备蜂蜜样品, 包括真蜂蜜样品和假蜂蜜样品, 并生成洋槐蜜数据; 通过核磁共振技术, 对蜂蜜样品进行NOESY  1D检测, 得到检测蜂蜜样品的一维氢信号 谱图, 进而对谱图进行数字化转换, 得到多个反映洋槐蜜样品谱图特征 的真假洋槐蜜数据 记录; B: 对洋槐蜜数据记录进行真假标注, 得到洋槐蜜数据集; 对步骤A中得到的洋槐蜜数据中的每一条记录添加真假标签属性, 用于表示洋槐蜜为 真蜂蜜或掺假蜂蜜; 每一条记录按照一定规则再添加 一个样本名称属 性; 将得到的洋槐蜜 数据集记为D; 洋槐蜜数据集D包括反映洋槐蜜样品谱图的多个特 征; C: 选择谱图特 征; 从洋槐蜜数据集D反映谱图特征的多个特征中选择重要性程度大的前p个特征为最终 特征集合, 根据最终特 征集合得到低维的洋槐蜜数据集, 记为D ′, 用于模型的构建和训练; 具体是采用随机森林算法得到洋槐蜜数据集D中每个特征的重要性大小, 并对特征重 要性程度大小 进行排序; 然后选取 前p个特征为最终特征集合; 包括如下步骤: C1: 构建包 含多棵决策树的随机森林; 随机森林中的每一棵决策树均为二叉树, 即为一个分类器; 决策树中的每个节点表示 洋槐蜜数据集的一个子集; 节点纯度最高的特 征作为最优特征; C2: 特征重要性评估: 计算每个特征Cj的重要性评分VIMj, 即计算第j个特征Cj在随机森 林所有决策树中节点分裂纯度的平均改变量; 计算洋槐蜜数据集D中每个特征在随机森林中的每棵决策树上的贡献; 取平均值, 得到 每个特征的贡献程度即重要性程度, 采用基尼Gini指数表示; Gini指数值越小表示集合中 被选中的元 素被分错的概 率越小, 也 就是集合的纯度越高; 通过式(4)计算得到Gi ni指数的值: 式中, GIm为决策树中节点m的Gini值; pmk代表节点m中样本属于第k类 的概率估计值, K 代表样本集的类别个数; 类别分为真蜂蜜和假蜂蜜两个 类别, 即K=2, 此时节点m的Gi ni指数为式(5): GIm=2pm(1‑pm)             (5) 其中, pm为洋槐蜜样本在节点m属于任意 一类的概 率估计值; 设决策树分枝时, 根据特征F是否取某一可能的值f, 将洋槐蜜数据集合D分割成D1和D2 两部分, 即: D1={(x,y)∈D|F(x)=f},D2=D‑D1; 其中x为洋槐蜜样本, y为样本x对应的标签 值; 则在特 征F在取值f的条件下, 集 合D的基尼指数定义 为式(6): 其中, 和 由式(5)计算, |D|表示 集合D中样本的个数;权 利 要 求 书 1/4 页 2 CN 113933334 A 2特征Cj在节点m中的重要性 即决策树中的节点m分枝前后的Gini指数变化量, 由式(7)计算得到: 其中, GIL和GIR分别表示分枝之后两个新节点的Gi ni指数; 如果特征Cj在第l棵决策树中出现M次, 则Cj在第l棵树的重要性 表示为: 若随机森林共有n棵决策树, 特 征Cj在随机森林中的重要性 表示为: 将所有求得的重要性评分进行归一 化处理, 得到重要性评分VIMj: C3: 特征选取; 包括: 使用洋槐蜜数据集D中176个特征的重要性评分, 根据重要性进行降序排序之后得到特 征序列 λ( λ1, λ2,…, λp,…, λ176), 假定阈值为γ, 当前p个特征的重要性之和大于等于γ, 即 时, 选择 λ1, λ2,…, λp为最终的特 征集合, 得到p+2维的洋槐蜜数据集D ′; D: 构建并训练洋槐蜜真伪鉴别模型, 得到训练好的洋槐蜜真伪鉴别模型; D1: 基于洋槐蜜数据集D ′, 利用scikit ‑learn机器学习库的XGBClassifier方法构建洋 槐蜜真伪鉴别模型, 记为RF ‑XGBoost; 基于树集成模型XGBoost, 对于每一个洋槐蜜样本xi, 根据式(11)累加 多棵树的预测值 来计算该样本最终的预测值 表示为: 式中, K是决策树的总数量; 为样本xi的预测值; fk(xi)为决策树k对洋槐蜜样本xi 的预测值; F 是假设空间, 表示 为式(12): F={f(x)=ωq(x)}(q:R→T,ω∈RT)      (12) 式中, q(x)表示将洋槐蜜样本x映射到决策树对应的叶子节点中, T是决策树中叶子节 点的个数, ωq(x)是叶子节点对洋槐蜜样本x的预测值; 使用目标函数求解每个叶子节点的最优预测值, 使得目标函数最小的ω值即为每个叶 子节点对洋槐蜜样 本的最优 预测值; 目标函数Obj由损失函数和正则化项两部 分组成, 表 示 为式(13): 其中, 为损失函数, 即训练误差, Ω(fk)为正则化项, 用于控制模型的复杂度; 其 中的正则化项表示 为式(14):权 利 要 求 书 2/4 页 3 CN 113933334 A 3

.PDF文档 专利 一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法 第 1 页 专利 一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法 第 2 页 专利 一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:59:44上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。