(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111556118.9
(22)申请日 2021.12.17
(71)申请人 西南石油大 学
地址 610500 四川省成 都市新都区新都大
道8号西南石油大 学
(72)发明人 李忠兵 段洪名 梁海波 庞微
蒋川东 谌贵辉
(74)专利代理 机构 成都知棋知识产权代理事务
所(普通合伙) 51325
代理人 马晓静
(51)Int.Cl.
G06Q 10/04(2012.01)
G06K 9/62(2022.01)
G01N 21/3504(2014.01)
(54)发明名称
一种基于最优决策和动态分析的烷烃气体
红外光谱测量方法
(57)摘要
本发明公开了一种基于最优决策和动态分
析的烷烃气体红外光谱测量方法, 其包括: 采集
和预处理烷烃类气体红外光谱数据; 寻找定性、
定量建模算法和超参数配置的最优 策略; 建立定
性模型并识别现场待测数据, 其结果用于匹配相
应历史数据集; 确定不同相似性阈值, 对待测数
据和历史数据进行相似性度量, 建立局部、 全局
动态定量分析模型, 并预测气体浓度; 在不同阈
值条件下, 现场待测数据和分析结果分为可靠和
疑似异常; 系统完成定性、 动态定量分析后, 将可
靠的样本和结果更新到历史数据集。 本发明有效
解决了利用机器学习在红外光谱测量时无法解
决超参数多、 确定最优算法和超参数耗时, 以及
单纯依赖离线模型预测现场待测数据时精度低
的问题。
权利要求书4页 说明书13页 附图1页
CN 114219157 A
2022.03.22
CN 114219157 A
1.一种基于最优决策和动态分析的烷烃气体红外光谱测量方法, 其特征在于, 包括如
下步骤:
S1: 采用专门的实验仪器设备采集烷烃类气体的红外光谱数据,该历史样本数据包含
单组份类烷烃气体、 多组份混合 烷烃气体、 类别标签和浓度标签;
S2: 选取合适的红外光谱一维序列数据预处理方式, 剔除前期实验阶段采集的异常数
据;
S3: 建立最优决策配置流水线, 该流水线通过随机森林代理模型和采集函数分别确定
定性、 定量分析阶段的最优算法和超参数配置组合;
S4: 基于S2 ‑S3步骤建立烷烃气体定性分析模型, 进行烷烃气体种类识别, 根据定性分
析结果在历史数据集中选 定匹配的气体 类别数据集;
S5: 根据动态建模需求确定相似性度量阈值, 并通过相似性原则对现场测量数据和S4
步骤得到的历史样本数据进行相似性度量度量;
S6: 建立烷烃气体浓度预测 实时测量局部动态分析模型, 该过程通过相似程度选择高
相似程度的历史样本和较相似程度的历史数据样本, 进行局部动态定量建模分析;
S7: 建立烷烃气体浓度预测 实时测量全局动态分析模型, 该过程对与历史样本相似性
差异较大或者疑似异常, 无法进行局部建模的现场待测数据进行全局动态定量建模分析;
S8:引入红外光谱数据集在线更新机制, 该机制通过判断待测数据是否为与历史数据
样本离群的疑似异常数据, 并根据判断结果确定是否将现场测量数据和分析结果更新至历
史数据集中;
S9: 获取待测样本所对应的光谱数据, 基于S3步骤所提最优配置模型对待测数据进行
定性识别, 基于S4、 S 5步骤所提最优动态分析模型对现场待测数据进行定量分析, 基于S7步
骤实现在线更新历史数据集, 完 善烷烃气体红外吸 收光谱数据库。
2.根据权利要求1所述方法, 其特征在于, 所述S2中的数据 预处理方式为卷积平滑和 异
常数据剔除, 烷烃类气体红外吸 收光谱预处 理方式包括如下步骤:
将所述实验的烷烃类气体红外光光谱数据集, 按一定比例划分为光谱数据训练集和光
谱数据测试集, 并用卷积平 滑方法对原 始光谱数据进行变化信息加权保留的降噪处 理;
并针对数据集中可能存在的异常数据, 对降噪之后的数据采用主成分得分法进行异常
样本检测; 该过程基于主成分分析法选取样本数据的前n个主成分, 并以数据在方差变化最
大的方向的投影为第一主成分, 计算得分PC1; 第二大方差对应第二主成分, 计算得分PC1;
以此类推, 然后得分之和小于90%的样本 视为异常样本并将其剔除样本集。
3.根据权利要求2所述方法, 其特征在于, 所述S3中采用Auto ‑Sklearn架构, 构建算法
集, 并建立最优 决策配置流水线, 该流水线通过随机森林代理模型和采集函数分别确定定
性、 定量分析阶段的最优算法和超参数配置组合, 寻找最优策略包括如下步骤:
最优决策配置流水线主要基于初始数据集D, 根据随机初始化的m组超参数组合x和经
交叉验证得到的m个损失函数评估值y , 用随机森林回归拟合目标损失函数
其中, A(i)(i=1,…,n)表示算法集为A={A(1),A(2),…,A(n)}中的一种算法和对应需要
设定的超参数 空间为Λi,
和
分别表示K折交叉验证中第 j个的训练集和第 j个测试权 利 要 求 书 1/4 页
2
CN 114219157 A
2集;
随机森林的每个回归树的中间节点会根据二分判据把输入数据集D不断划分为不同的
区域, 并最终在叶结点将其划分为各不相交的区域R={R1,…,RM};
从带有数据集D的根节点 开始, 利用分离点s和超参数组合x分离变量j进行 数据二分;
当j为数值型分离变量时, s表示一个数值标量; 如果xi,j≤s, 此时数据样本xi划分到下
一级的左侧区域RL1,如果xi,j≥s, 此时数据样本xi划分到下一级的右侧区域RR1;
当j为类别型型分离变量时, s表示一个类别变量的集合; 如果xi,j∈s, 此时数据样本xi
划分到下一级的左侧区域RL1, 如果
此时数据样本xi划分到下一级的右侧区域RR1;
在每一个节点处, 选择的不同分离变量j和分离点s, 得到不同区域平均值的平方差之
和
式中, l(j,s)表示在当前分离变量j和分离点s得到的二分之后RL1(j,s)、 RR1(j,s)两个
区域平均值的平方差之和,
和
分别表示两个区域所有数据样本标签值yi的均
值;
该过程便可出关于fm+1所有取值的后验概率分布, 之后便是通过该后验分布和采集函
数EI表示 函数f(x)的改善程度I的期望, 来确定采集 函数期望 E(I):
当E(I)最大时, 对应的x为该轮优化的改善效果最佳的超参数, 之后结合本轮找到的超
参数更新为下一轮优化的先验分布。
当在算法A(i)(i=1,…,n)下完成最优参数组合选择之后, 再切换到下一个算法A(i+1)(i
=1,…,n), 并重复上述在当前算法下的寻找最优参数组合的迭代过程;
直到找到最佳算法机器对应超参数配置或者满足迭代的前提条件限制时, 输出当前最
佳的分类算法和超参数组合, 浓度预测的回归算法和超参数寻优策略和分类情况类似。
4.根据权利要求3所述方法, 其特征在于, 所述S4中建立烷烃气体定性分析模型, 进行
烷烃气体种类识别, 并根据识别结果选取与定性分析结果相对应的历史数据集, 定性分析
过程包括如下步骤:
通过结合S2步骤预处理前期实验的烷烃气体数据集和S3步骤得到的烷烃气体定性分
析最优算法和超参数配置, 建立 烷烃类气体定性分析模型;
现场测量数据经 过上述训练好的定性分析模型 得到烷烃气体 类别的定性分析 结果;
根据该定性分析结果选定S2步骤整理后的数据集中, 与该结果匹配的烷烃类别历史数
据集。
5.根据权利要求4所述方法, 其特征在于, 所述S5 中根据动态建模需求确定相似性度量
阈值, 并通过相似性原则对现场测量数据和S4步骤得到的历史样本数据进行相似性度量度
量, 相似性度量过程包括如下步骤:
相似度度量阶段, 根据相似度度量准则, 选择只与当前输入待测数据相似性较大的局
部历史数据作为建模样本;权 利 要 求 书 2/4 页
3
CN 114219157 A
3
专利 一种基于最优决策和动态分析的烷烃气体红外光谱测量方法
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 03:08:18上传分享