专利一种基于KPCA和混合相似度的数据异常处理方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211321839.6 (22)申请日 2022.10.27 (71)申请人江西师范大学地址 330022 江西省南昌市紫阳大道99号江西师范大学瑶湖校区 (72)发明人马勇　赵从俊　戴梦轩　贺嘉　李博嘉　何兵兵　唐泳　 (74)专利代理机构南昌金轩知识产权代理有限公司 36129 专利代理师高娜 (51)Int.Cl. G06F 16/215(2019.01) G06F 16/25(2019.01) G06F 16/28(2019.01) G06K 9/62(2022.01) (54)发明名称一种基于KPCA和混合相似度的数据异常处理方法 (57)摘要本发明公开了一种基于KPCA和混合相似度的数据异常处理方法，包括： S1：终端产生任务，并将任务上传至边缘端； S2：边缘端接收所述任务，并将所述任务所涉及的数据划分为高维数据和低维数据； S3：对所述高维数据和低维数据进行处理； S4：边缘端将处理好的数据上传至云端。通过上述方式，本发明提供的数据异常处理方法对数据特征的挖掘具有较高的完整性，提供的一种基于KPCA和混合相似度的数据异常处理方法具有较高的准确性，进而提升数据集的质量管理水平，促进云端和边缘端对任务的安全稳定优质运行。权利要求书2页说明书5页附图2页 CN 115438035 A 2022.12.06 CN 115438035 A 1.一种基于KPCA和混合相似度的数据异常处理方法，其特征在于，包括以下步骤： S1：终端产生任务，并将任务上传至边缘端； S2：边缘端接收所述任务，并将所述任务所涉及的数据划分为高维数据和低维数据； S3：对所述高维数据和低维数据进行处理； S4：边缘端将处理好的数据上传至云端。 2.如权利要求1所述的一种基于KPCA和混合相似度的数据异常处理方法，其特征在于，所述高维数据，为维度>= 3的数据；所述低维数据，为维度< 3的数据。 3.如权利要求1所述的一种基于KPCA和混合相似度的数据异常处理方法，其特征在于，所述对所述高维数据和低维数据进行处理，包括： S31.对所述高维数据和低维数据进行异常检测，得到检测结果； S32.对所述检测结果进行清洗，得到清洗后的数据集； S33.对所述清洗后的数据集进行冗余数据判断并进行处理。 4.如权利要求3所述的一种基于KPCA和混合相似度的数据异常处理方法，其特征在于，所述对所述高维数据和低维数据进行异常检测，得到检测结果，包括： S311.对低维数据采用iForest进行异常检测，得到各个低维数据对应的路径长度与异常分数； S312.将高维数据采用KPCA算法转换为特征数据，再对所述特征数据采用iForest进行异常检测，得到各个高维数据对应的路径长度与异常分数。 5.如权利要求 4所述的一种基于KPCA和混合相似度的数据异常处理方法，其特征在于，所述将高维数据采用KPCA算法转换为特征数据，包括：建立高维数据映射数据库，在所述高维数据映射数据库中记录所有原始高维数据以及对应的特征数据。 6.如权利要求5所述的一种基于KPCA和混合相似度的数据异常处理方法，其特征在于，所述对所述检测结果进行清洗，包括： S321.获取高维数据和低维数据的路径长度与异常分数，计算平均路径长度； S322.将所述平均路径长度在0~0.15范围内，且异常分数在 0.85~1范围内的数据作为异常值，进行数据清洗。 7.如权利要求4 ‑6任一一项所述的一种基于KPCA和混合相似度的数据异常处理方法，其特征在于，所述对所述检测结果进行清洗，高维数据和低维数据均各自采用所述S31、 S32、 S33中涉及的方法，分开进行，其中，所述高维数据各自选取维度相同的数据进行处理。 8.如权利要求6所述的一种基于KPCA和混合相似度的数据异常处理方法，其特征在于，所述对所述清洗后的数据集进行冗余数据判断并进行处理，包括： S331.获取所述平均路径长度和所述异常分数相似的数据，将获取到的数据假定为，则将视为冗余数据；其中，所述S331步骤中，低维数据与高维数据均采用上述方法，并分开同步进行； S332.分析的数据类型，若为低维冗余数据，则转S333，若为高维冗余数据，转S3 34；权　利　要　求　书 1/2 页 2 CN 115438035 A 2S333.采用皮尔逊相关系数获取所述低维冗余数据的相似度H1；公式如下： H1=corr S334.从所述高维数据映射数据库中获取所述对应的原始高维数据，采用混合相似度算法获取所述高维冗余数据的相似度H2；公式如下：其中μ为斯皮尔曼相关系数所占权重，为数据的斯皮尔曼相关系数，为的互信息值； S335.将所述H1或 H2与预设阈值δ 比较，若H1>δ或H2>δ，则表示中存在冗余数据，进行数据清除。 9.如权利要求8所述的一种基于KPCA和混合相似度的数据异常处理方法，其特征在于，所述 μ、预设阈值 δ 由人工取值， μ范围为0~1， δ 范围不超过计算出的相似度最大值。权　利　要　求　书 2/2 页 3 CN 115438035 A 3

专利 一种基于KPCA和混合相似度的数据异常处理方法

专利一种基于KPCA和混合相似度的数据异常处理方法