专利基于半监督集成学习的金霉素发酵过程软测量建模方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202110447724.0 (22)申请日 2021.04.25 (65)同一申请的已公布的文献号申请公布号 CN 112989711 A (43)申请公布日 2021.06.18 (73)专利权人昆明理工大学地址 650500 云南省昆明市呈贡区景明南路727号 (72)发明人金怀平　李友维　 (74)专利代理机构昆明科众知识产权代理事务所(普通合伙) 53218 专利代理师蒋晗 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/12(2006.01)审查员寇惠云 (54)发明名称基于半监督集成学习的金霉素发酵过程软测量建模方法 (57)摘要本发明公开了一种基于半监督集成学习的工业过程软测量建模方法。该方法针对工业过程数据普遍存在的有标记数据缺乏但未标记数据充裕导致的传统软测量模型性能不佳及常规软测量方法采用单一模型导致的模型准确性、稳定性难以保证的问题，采用进化优化的方式对未标记数据进行伪标记估计，从而充分利用未标记数据携带的信息，扩充有标记训练集，提升了软测量模型的性能。同时，采用集成学习策略，通过利用扩充后的有标记训练集，构建具有多样性的基模型，从而进一步提升模型的准确性与稳定性，最终提升了工业过程软测量建模的性能。权利要求书4页说明书9页附图2页 CN 112989711 B 2022.05.20 CN 112989711 B 1.一种基于半监督集成学习的金霉素发酵过程软测量建模方法，其特征在于，包括以下步骤： (1)收集金霉素发酵过程数据D，构建用于软测量建模的数据库，通过对金霉素发酵过程的机理分析，确定与预测变量y相关的辅助变量X，辅助变量X即输入量， X＝{x1,x2,..., xM}；所收集数据包括有标签数据集与无标签数据集，有标签数据集为同时包含预测变量与输入变量的数据集，而无标签数据集即为仅包含输入变量的数据集； (2)基于Z ‑Score方法对样本集D进行归一化处理，进而得到有标签数据集L∈RN×Q、无标签数据集U∈RK×J，其中， N和Q分别表示有标签数据的样本个数和过程变量个数， K和J分别表示无标签数据的样本个数和辅助变量个数，同时，将有标签数据集L划分成为训练集Ltrain、验证集Lvalidate及测试集 Ltest； (3)考虑到金霉素发酵过程的强非线性，选择集成极限学习机作为基模型，由于其属于参数模型，参数不同，对应模型也有所差异，其隐层权重参数由随机初始化产生，因此可由同一训练集 Ltrain构建出M个具有多样性的初始模型，分别记为E ELM1,EELM2,···,EELMM； (4)将未标记的伪标记估计转换为一个优化问题，将所有未标记样本的伪标记作为决策变量，并采用进化优化算法对其进行优化求解，而获得优化完毕的伪标记样本； (5)将步骤(4)中优化完毕的伪标记样本用于训练样本集的扩充，并将进行等量划分，分别送入不同的基模型中，并进行训练，进一步提升基模型准确性与多样性； (6)将基模型进行集成，在Stackin g集成框架下，采用PLS融合局部预测输出，最终获得半监督集成学习软测量模型，并对新样本进行预测并输出预测结果； (7)收集新的金霉素发酵过程在线测量数据，并进行归一化处理； (8)将归一化处理后的测量数据直接输入到步骤(6)中建立完毕的半监督集成软测量模型中预测输出，并将结果反归一化后作为最终预测结果，根据预测结果最终实现对金霉素发酵过程的监测和控制；所述步骤(4)获得基于进化优化的伪标签数据的具体过程为： 1)将无标记数据集U中的样本进行随机排序，并将其划分为M个样本子集，分别记为U1, U2,···UM，利用进化优化算法对数据集U＝{xu,1,···,xu,K}进行伪标记优化，优化目标描述如下： min[f(x)] 其中， f(x)为待优化问题的目标函数； x为待优化的决策变量； ub和lb分别为变量x的上限约束和下限约束； 2)利用训练集Ltrain建立高斯过程回归模型GPR，利用该模型对无标记数据集U＝ {xu,1,···,xu,K}进行预测进而得到对数据集U的估计输出yu＝{yu,1,···,yu,K}和预测方差σ2＝{σ2 u,1,···, σ2 u,K}， x的上限为ub＝yu+3σ，下限为 lb＝yu‑3σ； 3)将步骤(3)中建立的M个集成极限学习机 EELM模型作为初始基模型； 4)确定目标函数f(x)，所提方法中f(x)由四个部分组成，分别为单模型精度 RMSEindividual、集成模型精度RMSEensemble、训练误差RMSEindividual2、平滑度SMOOTH；其中，单模型精度为有标记数据集L分别加上优化得到的伪标记样本子集U1,U2,···UM后分别训练权　利　要　求　书 1/4 页 2 CN 112989711 B 2出的EELM1,EELM2,···,EELMM各自对有标记样本的预测变量进行预测的均方根误差之和，集成模型精度为EELM1,EELM2,···,EELMM各自对有标记样本的预测变量进行预测后得到的预测值再进行简单平均后对有标记样本的预测变量的均方根误差，训练误差为仅用优化得到的伪标记样本子集U1,U2,···UM分别训练出的EELM1,EELM2,···,EELMM各自对有标记样本的预测变量进行预测的均方根误差之和，平滑度为图拉普拉斯正则项，因此优化目标可表示为： f(x)＝RMSEindividual1+λ1*RMSEensemble+λ2*RMSEindividual2+λ3*SMOOTH (12) 其中， 0≤ λ1, λ2, λ3≤1分别为集成模型精度、训练误差、平滑度的平衡系数；所述单模型精度、集成模型精度、训练误差、平滑度的计算过程如下： ①单模型精度RMSEindividual1与训练误差RMSEindividual2分别是由不同训练数据，单模型精度RMSEindividual1为有标记数据集L分别加上优化得到的伪标记样本子集U1,U2,···UM，训练误差RMSEindividual2仅为优化得到的伪标记样本子集U1,U2,···UM分别训练出的EELM1, EELM2,···,EELMM各自对有标记样本的预测变量进行预测的均方根误差之和，而集成模型精度则是在单模型精度的基础上将每个EELM的预测值进行简单平均后对有标记样本的预测变量的均方根误差，总体都是均方根误差的计算，其计算方式分别为：其中， NL为有标记训练样本的数目，为由有标记数据集L加上优化得到的伪标记样本子集Ui共同训练出的EELMi对第j个有标记训练样本的预测值， yL,j为第j个有标记训练样本的预测变量的实际值，为由有标记数据集L分别加上优化得到的伪标记样本子集U1, U2,···UM分别训练出的EELM1,EELM2,···,EELMM分别对第j个有标记训练样本的预测值的简单平均得到的值，为仅由优化得到的伪标记样本子集Ui训练出的EELMi对第j个有标记训练样本的预测值； ②平滑度定义为图拉普拉斯正则项，构造有标记样本L与无标记样本U混合之后的数据的图模型，用wij表示图模型中两个节点之间的连接权重，平滑度的具体计算方式为： SMOOTH＝fTLf (16) 其中， f表示有标记样本与伪标记样本的输出标记部分，表示为f＝[y1,y2,···,yN, yu,1,yu,2,···,yu,K]， L表示图拉普拉斯矩阵，其计算方式为L＝D ‑W， D为一个对角矩阵，其主对角线上的元素为: 其中， W为一个矩阵，其中的各元素表示为: 权　利　要　求　书 2/4 页 3 CN 112989711 B 3

专利 基于半监督集成学习的金霉素发酵过程软测量建模方法

专利基于半监督集成学习的金霉素发酵过程软测量建模方法