说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211322273.9 (22)申请日 2022.10.27 (71)申请人 清华大学 地址 100084 北京市海淀区清华园1号 (72)发明人 陈琼 黄小猛  (74)专利代理 机构 北京三聚阳光知识产权代理 有限公司 1 1250 专利代理师 李博洋 (51)Int.Cl. G06K 9/62(2022.01) (54)发明名称 一种离群点检测模型训练、 离群点检测方法 及装置 (57)摘要 本发明提供了一种离群点检测模型训练、 离 群点检测方法及装置, 离群点检测模 型训练方法 包括: 获取初始数据集, 初始数据集的每条数据 中包含有条件属性信息和决策属性信息; 分别计 算各条件属性信息相对于决策属性信息的邻域 近似精度, 根据邻域近似度将条件属性信息分为 初始第一条件属性集和初始第二条件属性集; 将 初始第二条件属性集中的条件属性信息依次加 入初始第一条件属性集中更新初始第一条件属 性集, 根据更新后的第一条件属性集相对于决策 属性的邻域近似精度和邻域条件熵确定约减属 性集; 根据约减属性集以及决策属性信息确定训 练数据集; 通过训练数据集对神经网络模型进行 训练, 得到离群点检测模型。 通过本发明能够快 速且准确地检测离 群点。 权利要求书2页 说明书15页 附图7页 CN 115392404 A 2022.11.25 CN 115392404 A 1.一种离群点检测模型训练方法, 其特 征在于, 包括: 获取初始数据集, 所述初始数据集中包括多条数据, 每条数据中包含有条件属性信息 和决策属性信息; 分别计算每个条件属性信 息相对于决策属性信 息的邻域近似精度, 根据 各条件属性信 息的邻域近似度将所述条件属性信息分为初始第一条件属性集和初始第二条件属性集, 所 述初始第一条件属 性集中的条件属 性信息的邻域近似精度的绝对值大于所述初始第二条 件属性集中的条件属性信息的邻域近似精度的绝对值; 将所述初始第二条件属性集中的条件属性信息依次加入所述初始第一条件属性集中 更新所述初始第一条件属性集, 根据更新后的第一条件属性集相对于决策属性的邻域近似 精度和邻域条件熵确定约减属性 集; 根据所述约减属性 集中的条件属性信息以及决策属性信息, 确定训练数据集; 通过所述训练数据集对神经网络模型进行训练, 得到 离群点检测模型。 2.根据权利要求1所述的离群点检测模型训练方法, 其特征在于, 将所述初始第 二条件 属性集中的条件属 性信息依 次加入所述初始第一条件属 性集中更新所述初始第一条件属 性集, 根据更新后的第一条件属性集相对于决策属性的邻域近似精度和邻域条件熵确定约 减属性集的步骤, 包括: 将所述初始第二条件属性集中的第q个条件属性信息加入所述初始第一条件属性集 中, 得到更新后的第一条件属性 集; 根据更新后的第一条件属性集相对于决策属性的邻域近似精度和邻域条件熵计算更 新后的第一条件属性 集相对于决策属性的邻域组合熵; 计算初始第一条件属性 集相对于决策属性的初始邻域组合熵; 若所述更新后的第 一条件属性集的邻域组合熵大于所述初始邻域组合熵, 利用所述更 新后的第一条件属性 集代替所述初始第一条件属性 集; 若q小于初始第 二条件属性集中的条件属性信息总数, 令q加1, 返回将所述初始第二条 件属性集中的第q个条件属 性信息加入所述初始第一条件属 性集中, 得到更新后的第一条 件属性集的步骤, 直到q等于初始第二条件属性 集中的条件属性信息总数; 将所述初始第一条件属性 集中的条件属性信息确定为所述约减属性 集。 3.根据权利要求2所述的离群点检测模型训练方法, 其特征在于, 根据 更新后的第 一条 件属性集相对于决策属 性的邻域近似精度和邻域条件熵计算更新后的第一条件属 性集相 对于决策属性的邻域组合熵的步骤, 包括: 确定将以自然常数为底数, 以所述邻域条件熵为指数的指数函数值; 根据所述指数函数值与所述邻域近似精度的乘积确定所述邻域组合熵。 4.根据权利要求1所述的离群点检测模型训练方法, 其特 征在于, 所述神经网络模型为残差网络 。 5.根据权利要求 4所述的离群点检测模型训练方法, 其特 征在于, 使用交叉熵作为所述残差网络的损失函数。 6.一种离群点检测方法, 其特 征在于, 包括: 获取待检测数据集, 所述待检测数据集中包括多条数据, 每条数据中包含有多个条件 属性信息;权 利 要 求 书 1/2 页 2 CN 115392404 A 2从所述待检测数据集的条件属性信息中选取 各条数据的约减属性信息; 将各条数据的约减属性信 息输入至预先训练好的离群点检测模型中, 得到离群点检测 结果, 所述离群点检测模型是通过权利要求1 ‑5中任一项所述的离群点检测模型训练方法 训练得到的。 7.一种离群点检测模型训练装置, 其特 征在于, 包括: 初始数据集获取模块, 用于获取初始数据集, 所述初始数据集中包括多条数据, 每条数 据中包含有条件属性信息和决策属性信息; 条件属性分类模块, 用于分别计算每个条件属性信 息相对于决策属性信 息的邻域近似 精度, 根据各条件属性信息的邻域近似度将所述条件属性信息 分为初始第一条件属性集和 初始第二条件属性集, 所述初始第一条件属性集中的条件属性信息的邻域近似精度的绝对 值大于所述初始第二条件属性 集中的条件属性信息的邻域近似精度的绝对值; 约减属性集确定模块, 用于将所述初始第 二条件属性集中的条件属性信 息依次加入所 述初始第一条件属性集中更新所述初始第一条件属性集, 根据更新后的第一条件属性集相 对于决策属性的邻域近似精度和邻域条件熵确定约减属性 集; 训练数据集确定模块, 用于根据所述约减属性集中的条件属性信息以及决策属性信 息, 确定训练数据集; 模型训练模块, 用于通过所述训练数据集对神经网络模型进行训练, 得到离群点检测 模型。 8.一种离群点检测装置, 其特 征在于, 包括: 待检测数据集获取模块, 用于获取待检测数据集, 所述待检测数据集中包括多条数据, 每条数据中包 含有多个条件属性信息; 约减属性信 息获取模块, 用于从所述待检测数据集的条件属性信 息中选取各条数据的 约减属性信息; 离群点检测模块, 用于将各条数据的约减属性信 息输入至预先训练好的离群点检测模 型中, 得到离群点检测结果, 所述离群点检测模 型是通过权利要求 1‑5中任一项 所述的离群 点检测模型训练方法训练得到的。 9.一种计算机设备, 其特 征在于, 包括: 至少一个处理器; 以及与所述至少一个处理器通信连接的存储器; 其中, 所述存储器存 储有可被所述至少一个处理器执行 的指令, 所述指令被所述至少一个处理器执行, 从而执 行如权利要求1 ‑5中任一项所述的离群点检测模型训练方法, 或, 执行如权利要求6所述的 离群点检测方法。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机指 令, 所述计算机指令用于使所述计算机执行如权利要求1 ‑5中任一项所述的离群点检测模 型训练方法, 或, 执 行如权利要求6所述的离群点检测方法。权 利 要 求 书 2/2 页 3 CN 115392404 A 3

.PDF文档 专利 一种离群点检测模型训练、离群点检测方法及装置

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种离群点检测模型训练、离群点检测方法及装置 第 1 页 专利 一种离群点检测模型训练、离群点检测方法及装置 第 2 页 专利 一种离群点检测模型训练、离群点检测方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:42:25上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。