说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211321839.6 (22)申请日 2022.10.27 (71)申请人 江西师范大学 地址 330022 江西省南昌市紫阳 大道99号 江西师范大学瑶湖校区 (72)发明人 马勇 赵从俊 戴梦轩 贺嘉  李博嘉 何兵兵 唐泳  (74)专利代理 机构 南昌金轩知识产权代理有限 公司 36129 专利代理师 高娜 (51)Int.Cl. G06F 16/215(2019.01) G06F 16/25(2019.01) G06F 16/28(2019.01) G06K 9/62(2022.01) (54)发明名称 一种基于KPCA和混合相似度的数据异常处 理方法 (57)摘要 本发明公开了一种基于KPCA和混合相似度 的数据异常处理方法, 包括: S1: 终端产生任务, 并将任务上传至边缘端; S2: 边缘端接收所述任 务, 并将所述任务所涉及的数据划分为高维数据 和低维数据; S3: 对所述高维数据和低维数据进 行处理; S4: 边缘端将处理好的数据上传至云端。 通过上述方式, 本发明提供的数据异常处理方法 对数据特征的挖掘具有较高的完整性, 提供的一 种基于KPCA和混合相似度的数据异常处理方法 具有较高的准确性, 进而提升数据集的质量管理 水平, 促进云端和边缘端对任务的安全稳定优质 运行。 权利要求书2页 说明书5页 附图2页 CN 115438035 A 2022.12.06 CN 115438035 A 1.一种基于KPCA和混合相似度的数据异常处 理方法, 其特 征在于, 包括以下步骤: S1: 终端产生任务, 并将任务上传至边 缘端; S2: 边缘端接收所述任务, 并将所述任务所 涉及的数据划分为高维数据和低维数据; S3: 对所述高维数据和低维数据进行处 理; S4: 边缘端将处 理好的数据上传至云端。 2.如权利要求1所述的一种基于KPCA和混合相似度的数据异常处 理方法, 其特 征在于, 所述高维数据, 为维度>= 3的数据; 所述低维数据, 为维度< 3的数据。 3.如权利要求1所述的一种基于KPCA和混合相似度的数据异常处 理方法, 其特 征在于, 所述对所述高维数据和低维数据进行处 理, 包括: S31.对所述高维数据和低维数据进行异常检测, 得到检测结果; S32.对所述检测结果进行清洗, 得到清洗后的数据集; S33.对所述清洗后的数据集进行冗余数据判断并进行处 理。 4.如权利要求3所述的一种基于KPCA和混合相似度的数据异常处 理方法, 其特 征在于, 所述对所述高维数据和低维数据进行异常检测, 得到检测结果, 包括: S311.对低维数据采用iForest进行异常检测, 得到各个低维数据对应的路径长度与异 常分数; S312.将高维数据采用KPCA算法转换为特征数据, 再对所述特征数据采用iForest进行 异常检测, 得到各个高维数据对应的路径长度与异常 分数。 5.如权利要求 4所述的一种基于KPCA和混合相似度的数据异常处 理方法, 其特 征在于, 所述将高维数据采用KPCA算法转换为特 征数据, 包括: 建立高维数据映射数据库, 在所述高维数据映射数据库中记录所有原始高维数据以及 对应的特 征数据。 6.如权利要求5所述的一种基于KPCA和混合相似度的数据异常处 理方法, 其特 征在于, 所述对所述检测结果进行清洗, 包括: S321.获取高维数据和低维数据的路径长度与异常 分数, 计算平均路径长度; S322.将所述平均路径长度在0~0.15范围内, 且异常分数在  0.85~1范围内的数据作为 异常值, 进行 数据清洗 。 7.如权利要求4 ‑6任一一项所述的一种基于KPCA和混合相似度的数据异常处理方法, 其特征在于, 所述对所述检测结果进行清洗, 高维数据和低维数据均各自采用所述S31、 S32、 S33中 涉及的方法, 分开进行, 其中, 所述高维数据各自选取维度相同的数据进行处 理。 8.如权利要求6所述的一种基于KPCA和混合相似度的数据异常处 理方法, 其特 征在于, 所述对所述清洗后的数据集进行冗余数据判断并进行处 理, 包括: S331.获取所述平均路径长度和所述异常分数相似的数据, 将获取到的数据假定为  , 则将 视为冗余数据; 其中, 所述S331步骤中, 低维数据与高维数据均采用上 述方法, 并分开同步进行; S332.分析 的数据类型, 若 为低维冗余数据, 则转S333, 若 为高维 冗余数据, 转S3 34;权 利 要 求 书 1/2 页 2 CN 115438035 A 2S333.采用皮尔逊相关系数获取 所述低维冗余数据的相似度H1; 公式如下: H1=corr S334.从所述高维数据映射数据库中获取所述 对应的原始高维数据   , 采 用混合相似度算法获取 所述高维冗余数据的相似度H2; 公式如下: 其中μ为斯皮尔曼相关系数所占权重, 为 数据的斯皮尔曼相关系数, 为 的互信息值; S335.将所述H1或 H2与预设阈值δ 比较, 若H1>δ或H2>δ, 则表示 中存在冗余数据, 进行数据清除。 9.如权利要求8所述的一种基于KPCA和混合相似度的数据异常处 理方法, 其特 征在于, 所述 μ、 预设阈值 δ 由人工取值, μ范围为0~1, δ 范围不超过计算出的相似度最大值。权 利 要 求 书 2/2 页 3 CN 115438035 A 3

.PDF文档 专利 一种基于KPCA和混合相似度的数据异常处理方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于KPCA和混合相似度的数据异常处理方法 第 1 页 专利 一种基于KPCA和混合相似度的数据异常处理方法 第 2 页 专利 一种基于KPCA和混合相似度的数据异常处理方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:41:07上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。