(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111298466.0
(22)申请日 2021.11.04
(71)申请人 河海大学
地址 210024 江苏省南京市 鼓楼区西康路1
号
(72)发明人 王继民 曹颖 季昌政
(74)专利代理 机构 南京苏高专利商标事务所
(普通合伙) 32204
代理人 柏尚春
(51)Int.Cl.
G06F 30/13(2020.01)
G06F 30/27(2020.01)
G06K 9/62(2022.01)
G06F 119/14(2020.01)
(54)发明名称
一种基于数据增强的侵彻深度预测方法
(57)摘要
本发明公开了一种基于数据增强的侵彻深
度预测方法, 对 预先获取的毁伤数据进行数据 异
常检测, 将毁伤数据分成N个待增强参数区间, 并
选出少数样本区间; 建立SMOTE数据增强方法对
少数样本区间的样本进行数据增强; 使用
Tomeklinks技术对通过数据增强生成的样本进
行数据清洗, 并将清洗后的样 本加入到原数据集
中, 构成新的扩充数据集; 并对数据进行归一化
处理; 利用网格搜索和交叉验证方法选取最优模
型参数, 建立GS ‑SVR模型; 对实际的毁伤数据进
行预测。 本发 明通过新增少数区间样本以规避数
据量较少、 存在异常值及样本不平衡带来的计算
误差, 提高模型整体的泛化性, 更好地实现对侵
彻深度值的预测。
权利要求书2页 说明书10页 附图2页
CN 114036610 A
2022.02.11
CN 114036610 A
1.一种基于数据增强的侵彻深度预测方法, 其特 征在于, 包括如下步骤:
(1)对预先获取的毁伤数据进行基于偏差的数据异常检测, 对采集到的试验样本中的
“离群点”进行异常样本检测与剔除;
(2)基于K ‑Means算法将经 过步骤(1)处 理过的毁伤数据分成H个待增强参数区间;
(3)对H个待增强参数区间进行分析, 确定不平衡区间之间的样本数据数量及不平衡比
例, 选出少数样本的区间; 建立SMOTE数据增强方法对少数样本区间的样本进行 数据增强;
(4)使用Tomek links技术对通过数据增强生成的样本进行数据清洗, 并将清洗后的样
本加入到原数据集中, 构成新的扩充数据集S1;
(5)对扩充数据集S1内的所有毁伤数据进行归一 化处理;
(6)从每个区间中随机划分训练数据Trai nData和测试数据TestData;
(7)利用网格搜索和交叉验证方法选取最优 模型参数, 建立GS ‑SVR模型;
(8)利用GS ‑SVR预测模型对实际的毁伤数据进行预测, 利用测试数据TestData来验证
模型的性能。
2.根据权利要求1所述的基于数据增强的侵彻深度预测方法, 其特征在于, 所述步骤
(1)实现过程如下:
将样本中的着靶速度、 弹体质量、 弹体直径、 靶标抗压强度、 CRH、 弹头形状因子、 弹头长
度、 靶标材料密度8个特征作为输入, 侵彻深度实际值作为输出; 首先使用所有的样本训练
BP神经网络, 用BP神经网络拟合所有试验数据, 得到各样本预测值与侵彻深度实际值的绝
对百分比误差; BP神经网络的结构为输入层节点数为8, 隐藏层节点分别为16, 32, 64, 输出
层节点数为1; 基于3σ 准则, 若绝对百分比误差超过3σ, 则该样 本为异常样 本, 需要剔除异常
样本, 规避异常数据在数据增强时带来更多的噪声。
3.根据权利要求1所述的基于数据增强的侵彻深度预测方法, 其特征在于, 所述步骤
(2)实现过程如下:
使用K‑Means算法对混凝土侵彻效应试验数据进行区间聚类,初始化k个聚类中心,然
后计算每个对 象到聚类中心的欧式距离; 依 次比较距离, 将进行比较的各数据样本分配到
距离最小的簇中, 然后以当前簇中所有样本的均值 来更新簇心, 需要选取合 适的k值。
4.根据权利要求1所述的基于数据增强的侵彻深度预测方法, 其特征在于, 所述步骤
(3)实现过程如下:
对少数区间的样本通过数据增强的方式来进行新增样本, 通过KNN算法, 从k个最近的
邻居随机选择邻居, S为少数区间样本, x∈S, 通过欧式距离计算S中的少数样本x到所有样
本的距离, 并找出x的k近邻, 通过不平衡比例设置一个采样比例来确定采样倍数N, 从其k个
邻居中随机选取若干个样本, 假设选择的近邻为o,对每一个随机选出的样 本o, 分布与 原样
本按照如下公式构建新的样本
Onew=o+rand(0,1) ×(x‑o)
其中, rand(0,1)代 表0到1内的随机数, 不包括0和1。
5.根据权利要求1所述的基于数据增强的侵彻深度预测方法, 其特征在于, 所述步骤
(4)实现过程如下:
对于少数区间样本集中X每 个样本xi, dj为选中的距离最近的样本, 按照公式:权 利 要 求 书 1/2 页
2
CN 114036610 A
2选出距离最近的K个样本{d1,d2,…,dk},其中M表示样本的特征数,
表示xi的第m个特
征,
表示dj样本的第m个特征, D(xi,dj)表示样本xi与dj之间的欧式距离; 设{d1,d2,…,dk}
中有
个多数区间样本, 按照以下两个公式来判断样本xi的类型C, C取0、 1、 ‑1时分别为正
常样本、 边界样本、 噪声数据:
通过公式
计算少数区间样本数据集中的每个样本xi到多数
区间样本nj的距离D(xi,nj), 使得公式D(xi,dk)<D(xi,nj)或者D(nj,dk)<D(xi,nj)成立, 则称
(xi,nj)是一个Tomeklinks对, 从每个Tomeklinks对中删除多数区间样本点, 根据r和C计算
出少数区间中数据增强后的每个样本周围的样本类别比例, 找出C为 ‑1和1的噪声与边界类
样本并剔除。
6.根据权利要求1所述的基于数据增强的侵彻深度预测方法, 其特征在于, 所述步骤
(7)实现过程如下:
网格搜索是将需要选取的模型参数的取值区间, 按照一定的规则划分为若干小区间,
然后计算出变量取值的所有组合以及各个组合所对应的目标误差, 并通过比较择优选择出
在该区间目标误差最小时所对应的参数组合; 对参数核函数、 惩罚因子和核函数系 数的取
值区间按照一定的搜索步长进行网格划分; 通过将估计函数 的参数通过5折交叉验证的方
法进行优化,将数据集平均分成不相交的5个子集, 一个子集作为测试集, 其余子集作为训
练集训练, 训练集与测试集不相交, 得到5个模 型的指标, 将 5个模型指标取平均值, 作为5折
交叉验证的模型的指标 结果。权 利 要 求 书 2/2 页
3
CN 114036610 A
3
专利 一种基于数据增强的侵彻深度预测方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 23:57:24上传分享