专利一种基于数据增强的侵彻深度预测方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111298466.0 (22)申请日 2021.11.04 (71)申请人河海大学地址 210024 江苏省南京市鼓楼区西康路1 号 (72)发明人王继民　曹颖　季昌政　 (74)专利代理机构南京苏高专利商标事务所 (普通合伙) 32204 代理人柏尚春 (51)Int.Cl. G06F 30/13(2020.01) G06F 30/27(2020.01) G06K 9/62(2022.01) G06F 119/14(2020.01) (54)发明名称一种基于数据增强的侵彻深度预测方法 (57)摘要本发明公开了一种基于数据增强的侵彻深度预测方法，对预先获取的毁伤数据进行数据异常检测，将毁伤数据分成N个待增强参数区间，并选出少数样本区间；建立SMOTE数据增强方法对少数样本区间的样本进行数据增强；使用 Tomeklinks技术对通过数据增强生成的样本进行数据清洗，并将清洗后的样本加入到原数据集中，构成新的扩充数据集；并对数据进行归一化处理；利用网格搜索和交叉验证方法选取最优模型参数，建立GS ‑SVR模型；对实际的毁伤数据进行预测。本发明通过新增少数区间样本以规避数据量较少、存在异常值及样本不平衡带来的计算误差，提高模型整体的泛化性，更好地实现对侵彻深度值的预测。权利要求书2页说明书10页附图2页 CN 114036610 A 2022.02.11 CN 114036610 A 1.一种基于数据增强的侵彻深度预测方法，其特征在于，包括如下步骤： (1)对预先获取的毁伤数据进行基于偏差的数据异常检测，对采集到的试验样本中的 “离群点”进行异常样本检测与剔除； (2)基于K ‑Means算法将经过步骤(1)处理过的毁伤数据分成H个待增强参数区间； (3)对H个待增强参数区间进行分析，确定不平衡区间之间的样本数据数量及不平衡比例，选出少数样本的区间；建立SMOTE数据增强方法对少数样本区间的样本进行数据增强； (4)使用Tomek links技术对通过数据增强生成的样本进行数据清洗，并将清洗后的样本加入到原数据集中，构成新的扩充数据集S1； (5)对扩充数据集S1内的所有毁伤数据进行归一化处理； (6)从每个区间中随机划分训练数据Trai nData和测试数据TestData； (7)利用网格搜索和交叉验证方法选取最优模型参数，建立GS ‑SVR模型； (8)利用GS ‑SVR预测模型对实际的毁伤数据进行预测，利用测试数据TestData来验证模型的性能。 2.根据权利要求1所述的基于数据增强的侵彻深度预测方法，其特征在于，所述步骤 (1)实现过程如下：将样本中的着靶速度、弹体质量、弹体直径、靶标抗压强度、 CRH、弹头形状因子、弹头长度、靶标材料密度8个特征作为输入，侵彻深度实际值作为输出；首先使用所有的样本训练 BP神经网络，用BP神经网络拟合所有试验数据，得到各样本预测值与侵彻深度实际值的绝对百分比误差； BP神经网络的结构为输入层节点数为8，隐藏层节点分别为16， 32， 64，输出层节点数为1；基于3σ 准则，若绝对百分比误差超过3σ，则该样本为异常样本，需要剔除异常样本，规避异常数据在数据增强时带来更多的噪声。 3.根据权利要求1所述的基于数据增强的侵彻深度预测方法，其特征在于，所述步骤 (2)实现过程如下：使用K‑Means算法对混凝土侵彻效应试验数据进行区间聚类,初始化k个聚类中心,然后计算每个对象到聚类中心的欧式距离；依次比较距离，将进行比较的各数据样本分配到距离最小的簇中，然后以当前簇中所有样本的均值来更新簇心，需要选取合适的k值。 4.根据权利要求1所述的基于数据增强的侵彻深度预测方法，其特征在于，所述步骤 (3)实现过程如下：对少数区间的样本通过数据增强的方式来进行新增样本，通过KNN算法，从k个最近的邻居随机选择邻居， S为少数区间样本， x∈S，通过欧式距离计算S中的少数样本x到所有样本的距离，并找出x的k近邻，通过不平衡比例设置一个采样比例来确定采样倍数N，从其k个邻居中随机选取若干个样本，假设选择的近邻为o,对每一个随机选出的样本o，分布与原样本按照如下公式构建新的样本 Onew＝o+rand(0,1) ×(x‑o) 其中， rand(0,1)代表0到1内的随机数，不包括0和1。 5.根据权利要求1所述的基于数据增强的侵彻深度预测方法，其特征在于，所述步骤 (4)实现过程如下：对于少数区间样本集中X每个样本xi， dj为选中的距离最近的样本，按照公式：权　利　要　求　书 1/2 页 2 CN 114036610 A 2选出距离最近的K个样本{d1,d2,…,dk},其中M表示样本的特征数，表示xi的第m个特征，表示dj样本的第m个特征， D(xi,dj)表示样本xi与dj之间的欧式距离；设{d1,d2,…,dk} 中有个多数区间样本，按照以下两个公式来判断样本xi的类型C， C取0、 1、 ‑1时分别为正常样本、边界样本、噪声数据：通过公式计算少数区间样本数据集中的每个样本xi到多数区间样本nj的距离D(xi,nj)，使得公式D(xi,dk)<D(xi,nj)或者D(nj,dk)<D(xi,nj)成立，则称 (xi,nj)是一个Tomeklinks对，从每个Tomeklinks对中删除多数区间样本点，根据r和C计算出少数区间中数据增强后的每个样本周围的样本类别比例，找出C为 ‑1和1的噪声与边界类样本并剔除。 6.根据权利要求1所述的基于数据增强的侵彻深度预测方法，其特征在于，所述步骤 (7)实现过程如下：网格搜索是将需要选取的模型参数的取值区间，按照一定的规则划分为若干小区间，然后计算出变量取值的所有组合以及各个组合所对应的目标误差，并通过比较择优选择出在该区间目标误差最小时所对应的参数组合；对参数核函数、惩罚因子和核函数系数的取值区间按照一定的搜索步长进行网格划分；通过将估计函数的参数通过5折交叉验证的方法进行优化,将数据集平均分成不相交的5个子集，一个子集作为测试集，其余子集作为训练集训练，训练集与测试集不相交，得到5个模型的指标，将 5个模型指标取平均值，作为5折交叉验证的模型的指标结果。权　利　要　求　书 2/2 页 3 CN 114036610 A 3

专利 一种基于数据增强的侵彻深度预测方法

专利一种基于数据增强的侵彻深度预测方法