专利 一种柴油机数据识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111626791.5 (22)申请日 2021.12.28 (71)申请人中国北方发动机研究所（天津）地址 300400 天津市北辰区永进道96号 (72)发明人智海峰　阴晋冠　褚全红　张春　李菲菲　关卓威　肖维　吕慧　张振宇　 (74)专利代理机构天津企兴智财知识产权代理有限公司 12 226 专利代理师薛萌萌 (51)Int.Cl. G06K 9/62(2022.01) G06N 5/02(2006.01) G06F 40/18(2020.01) G06F 40/174(2020.01) (54)发明名称一种柴油机数据识别方法 (57)摘要本发明提供了一种柴油机数据识别方法，包括顺序进行的模型构建、模型应用两部分，模型构建包括： S1：基于领域的通识认知建立通识规则库、基于专家的领域知识建立规则库； S2：读取容量不低于4G且字段信息完整的数据表，将其高斯滤波后的数据作为训练样本； S3：结合专家知识规则库准则将训练样本分为A、 B、 C三类训练样本； S4：分别针对A、 B、 C三类训练样本进行特征提取，并对特征数据进行标签处理； S5：将特征数据与标签作为最终训练集导入随机森林分类器，分别得到A、 B、 C子分类器；模型应用部分主要应用上述步骤形成数据表格。本发明所述的柴油机数据识别方法，针对大功率增压柴油机实采数据具备较佳的数据识别匹配的准确性。权利要求书2页说明书6页附图2页 CN 114462488 A 2022.05.10 CN 114462488 A 1.一种柴油机数据识别方法，其特征在于：包括模型构建、模型应用两部分，所述模型构建包括如下步骤： S1：基于领域的通识认知建立通识规则库、基于专家的领域知识建立规则库； S2：读取容量不低于4G且字段信息完整的数据表，将其高斯滤波后的数据作为训练样本； S3：结合专家知识规则库准则将训练样本分为A、 B、 C三类训练样本； S4：分别针对A、 B、 C三类训练样本进行特征提取，并对特征数据进行标签处理； S5：将特征数据与标签作为最终训练集导入随机森林分类器，以标签作为分类类型对随机森林分类器进行训练分别得到A、 B、 C 子分类器；模型应用部分包括以下步骤： P1：读取数据条目高于5000条的待识别柴油机数据表，然后按照所述S2的方法完成高斯平滑降噪，如果数据处理完成后的数据条目不足，则跳过本次数据识别过程， P2～P 5不执行； P2：基于步骤S1中已内置的通识规则库识别导入数据中的时间戳字段、编号序列字段；按照所述S3的步骤完成A、 B、 C三类训练数据集归并； P3：按照所述步骤S4中分别针对A、 B、 C三类训练样本进行特征提取形成特征数据样本； P4：分别将A、 B、 C三类特征数据样本输入A、 B、 C子分类器， A、 B、 C子分类器将分别输出其多个字段数据所对应的标签值； P5：根据预测标签值给原始导入数据表单添加列名，形成带有表头信息的规整的数据表格。 2.根据权利要求1所述的一种柴油机数据识别方法，其特征在于：所述S1中建立的领域知识规则库的具体方法为：在知识规则库内部预置入3条数据分类规则条件，分别为： ①满足如下条件的归为A类数据，使A类数据包含要求转速、实际转速、要求齿杆： X(i)>＝80 0， X(i)指的是A类数据内的任一变量的数据序列；所述规则普遍适应运行状态正常的大功率增压柴油机，但不排除存在极少数的随机异常数据的出现，下式引入的滤波算子能够消除该随机因素： ∑sgnx(X(i) ‑800)>0.99*n， n为差分序列长度， 0.9 9为滤波算子； ②满足如下条件归为C类数据，使C类数据包括大气压力、进气温度、水温、电压值： X(i)<110， X(i)指的是C类数据内的任一变量形成的数据序列；所述规则普遍适应运行状态正常的大功率增压柴油机，但不排除存在极少数的随机异常数据的出现，下式引入的滤波算子能够消除该随机因素： ∑sgnx(1 10‑X(i))>0.99*n,n为差分序列长度， 0.9 9为滤波算子； ③不满足①、②的归为B类数据，使B类数据包括机油压力、进气压力、排气温度。 3.根据权利要求1所述的一种柴油机数据识别方法，其特征在于：所述S1的通识规则库至少包括2条通识规则条件，一是时间戳字符串编码格式必须符合国际编码方式才判定为时间戳字段，如无符合条件字段则不输出；二是编号序列以整形变量形式进行存储，且变量数值升序排列，升序增量为1，该规则同样引入滤波算子平滑随机噪声： ∑sgnx(Dif f_X(i))>0.99*n 其中,Diff_X为编号序列形成的差分序列， n为差分序列长度， 0.99为滤波算子；满足所权　利　要　求　书 1/2 页 2 CN 114462488 A 2述条件才判定为编号序列字段，如无符合条件字段则不输出。 4.根据权利要求1所述的一种柴油机数据识别方法，其特征在于：所述S2具体包括：针对容量高于4G的导入数据的各列数据序列，采用指定模板大小为3 ×3，标准差为0.8的高斯滤波器完成各序列的平滑降噪。 5.根据权利要求1所述的一种柴油机数据识别方法，其特征在于：所述S3具体包括：按照步骤S1内置的领域知识规则库进行数据的划分，所述的规则能够保证将要求转速、实际转速、要求齿杆作为训练样本A；将机油压力、进气压力、排气温度作为训练样本B；将进气温度、大气压力、水温、 15V电压、 24V电压作为训练样本 C。 6.根据权利要求1所述的一种柴油机数据识别方法，其特征在于：所述步骤S4的具体方法为： S41：确定特征集合，针对训练样本A的各列数据样本，每5000条数据序列作为1个单位时窗数据Xa分别计算其最大值、最小值、平均值、信噪比、功率谱密度、一阶主频、均方根；上述7维特征形成1条训练样本，并将该数据序列列名作为其标签值； S42：根据所确定特征集合，针对训练样本B的各列数据样本，每5000条数据序列作为1 个单位时窗数据Xb分别计算其平均值、最大值、峰度、偏度、峭度、中位值、最小值、一阶差分；上述8维特征形成1条训练样本，并将该数据序列列名作为其标签值； S43：根据所确定特征集合，针对训练样本C的各列数据样本，每5000条数据序列作为1 个单位时窗数据Xc分别计算其平均值、标准差、中位值、一阶差分值、最小值；上述5维特征形成1条训练样本，并将该数据序列列名作为其标签值。权　利　要　求　书 2/2 页 3 CN 114462488 A 3

专利 一种柴油机数据识别方法

专利一种柴油机数据识别方法