说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111645706.X (22)申请日 2021.12.2 9 (71)申请人 世纪恒通科技股份有限公司 地址 550016 贵州省贵阳市贵阳国家高新 技术产业开发区中关村贵阳科技园核 心区南园科教街18 8号 (72)发明人 漆国强  (74)专利代理 机构 贵州启辰知识产权代理有限 公司 52108 代理人 陆国华 (51)Int.Cl. G06F 17/16(2006.01) G06K 9/62(2022.01) (54)发明名称 一种能有效减 小一致属性数据开销的算法 (57)摘要 本发明公开了一种能有效减小一致属性数 据开销的算法, 该方法用于对存在大量一致决策 属性的数据进行处理, 其通过将决策属性值划分 成多种类型信息, 之后以该多种类型信息组成决 策信息系统的初始集, 并以该决策信息系统的初 始集构造成差别矩阵, 利用决策属性提取差别矩 阵中的关键信息, 选取差别矩阵中频率较大的属 性作为候选属性, 其中候选属性集合为不重复集 合, 且每个候选属性都是一个不可再分解的属性 数据; 将候选属性作为锚点, 对差别矩阵进行转 换, 得出基于关键属性的转换矩阵, 实现减小数 据开销; 本发 明在存过数据存在大量的一致决策 属性时, 对决策属性进行有效的处理, 达到简化 数据集的目的。 权利要求书1页 说明书4页 CN 114297575 A 2022.04.08 CN 114297575 A 1.一种能有效减小一致属性数据开销的算法, 其特征在于, 该方法用于对存在大量一 致决策属 性的数据进行处理, 其通过将决策属 性值划分成多种类型信息, 之后以该多种类 型信息组成决策信息系统的初始集, 并以该决策信息系统的初始集构造成差别矩阵, 利用 决策属性提取差别矩阵中的关键信息, 选取差别矩阵中频率较大 的属性作为候选属 性, 其 中候选属 性集合为不重复集合, 且每个候选属 性都是一个不可再分解的属 性数据; 将候选 属性作为锚点, 对差别矩阵进行转换, 得 出基于关键属性的转换矩阵, 实现减小数据开销。 2.根据权利要求1所述的能有效减小一致属性数据开销的算法, 其特征在于: 决策信 息 系统的初始集表示 为S=(U, C, D, V, f); 其中, U={x1,x2, …x|u|}表示对象的有限集; C表示条件属性集; D表示决策属性集; f表示为信息函数U ×C∪D→V, 即对于 x∈U, 存在f(x,a)∈Va。 3.根据权利要求2所述的能有效减小一致属性数据开销的算法, 其特征在于: 所述决策 信 息 系 统 中 的 每 个 属 性 子 集 是 一 个 不 可 再 分 的 关 系 ,即 等 价 关 系 , IND(P)可将决策信息划分成等 价类, 简记为U/P。 4.根据权利要求2所述的能有效减小一致属性数据开销的算法, 其特征在于: 所述决策 信息系统中的每个属性子集与分类对应, 即: 条件属性集形成的划分称为条件类, 由决策属 性集形成的划分称为决策类。 5.根据权利要求1所述的能有效减小一致属性数据开销的算法, 其特征在于: 在将候选 属性作为锚点, 对差别 矩阵进行转换, 得出基于关键属性的转换矩阵时, 计算差别矩阵M中各属性的频率f(ck); 选择满足属性的 若存在多个 满足的属性, 则任选取一个; 将差别句子M内含属性ci的矩阵元素剔除, 最终得到简化后的 决策矩阵。权 利 要 求 书 1/1 页 2 CN 114297575 A 2一种能有效减 小一致属性数据开销的算法 技术领域 [0001]本发明涉及一种能有效减小一 致属性数据开销的算法, 属于数据处 理技术领域。 背景技术 [0002]近几年来, 随着数据挖掘、 机器学习及大数据等领域的发展, 如何高速有效的处理 数据信息, 成为一个商业价值很高的方向, 粗糙集理论是一种能有效处理不一致、 不完备和 不精确信息的数 学知识, 在一些 数据处理方向得到广泛的应用。 [0003]粗糙集理论作为知识约简的一个分支, 其常用算法有: 基于正区域模型的知识约 简算法、 基于差别矩阵模型的知识约简算法、 基于信息熵模型的知识约简算法。 常用的利用 差别矩阵简化数据的方法, 首先需要对矩阵进行改造, 将内核属性作为差别矩阵的初始 集, 通过迭代求解出其中频率最大的属性作为候选集, 该方法在遇到属性有一致的情况下将无 法简化, 并且算法的时间复杂度随着数据集的增大而快速的增加, 存储空间也无法进行有 效的优化。 [0004]即, 现需要一种能有效减小一致属性数据开销的算法, 在存过数据存在大量的一 致决策属性时, 对决策属性进行有效的处 理, 达到简化数据集的目的。 发明内容 [0005]有鉴于此, 本发明的目的是提供一种能有效减小一致属性数据开销的算法, 在存 过数据存在大量的一致决策属性时, 对决策属性进 行有效的处理, 达到简化数据集的目的; 可以克服现有技 术的不足。 [0006]本发明的目的是通过以下技 术方案实现的: [0007]与现有技术比较, 本发明公开了一种能有效减小一致属性数据开销的算法, 该方 法用于对存在大量一致决策属性的数据进 行处理, 其通过将决策属性值划分成多种类型信 息, 之后以该多种类型信息组成决策信息系统的初始集, 并以该决策信息系统的初始集构 造成差别矩阵, 利用决策属 性提取差别矩阵中的关键信息, 选取差别矩阵中频率较大 的属 性作为候选属 性, 其中候选属 性集合为不重复集合, 且每个候选属 性都是一个不可再分解 的属性数据; 将候选属性作为锚点, 对差别矩阵进行转换, 得出基于关键属 性的转换矩阵, 实现减小数据开销。 [0008]上述决策信息系统的初始集表示 为S=(U, C, D, V, f); [0009]其中, U={x1,x2, …x|u|}表示对象的有限集; C表示条件属性集; D表示决策属性 集; f表示为信息函数U ×C∪D→V, 即对于  x∈U, 存在f(x,a)∈Va。 [0010]上述决策信息系统中的每个属性子集是一个不可再分的关系, 即等价关系, IND(P)可将决策信息划分成等 价类, 简记为U/P。 [0011]上述决策信息系统中的每个属性子集与分类对应, 即: 条件属性集形成的划 分称 为条件类, 由决策属性 集形成的划分称为决策类。说 明 书 1/4 页 3 CN 114297575 A 3

.PDF文档 专利 一种能有效减小一致属性数据开销的算法

文档预览
中文文档 6 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共6页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种能有效减小一致属性数据开销的算法 第 1 页 专利 一种能有效减小一致属性数据开销的算法 第 2 页 专利 一种能有效减小一致属性数据开销的算法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 20:42:52上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。