(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210221054.5
(22)申请日 2022.03.08
(71)申请人 康昌春
地址 250000 山东省济南市 市中区春元 里
小区9号楼 2单元704号
(72)发明人 康昌春
(74)专利代理 机构 重庆百润洪知识产权代理有
限公司 5 0219
专利代理师 刘泽正
(51)Int.Cl.
G06F 16/22(2019.01)
G06F 16/2458(2019.01)
G06F 16/27(2019.01)
G06F 16/23(2019.01)
(54)发明名称
一种数据处 理方法及存 储介质
(57)摘要
本发明提出了一种数据处理方法及存储介
质, 在数据处理系统中创建关系数据表、 替换表
和缓存表, 在关系数据表中创建多个区域; 对关
系数据表执行节点拓扑模型算法, 生成去冗余数
据; 将去冗余数据添加到所述缓存表中; 检查所
有节点, 当节 点拓扑模型算法不再生成任何新的
去冗余数据时, 将缓存表中去冗余数据复制到替
换表中; 为替换表构建一个或多个索引语义数
据; 将替换表中的索引语义数据交换到关系数据
表中的多个区域中; 丢弃替换表和缓存表, 达到
了减少计算次数的目的, 最终实现大数据高效并
行化计算; 有效地解决了数据的计算瓶颈问题,
有效地提升了大数据的准确度、 效率和数量。
权利要求书2页 说明书6页 附图2页
CN 114610716 A
2022.06.10
CN 114610716 A
1.一种数据处 理方法, 其特 征在于, 包括以下步骤:
步骤1, 在数据处理系统中创建关系数据表、 替换表和缓存表, 在关系数据表中创建多
个区域;
步骤2, 对所述关系数据表执 行节点拓扑模型构建, 生成去冗余数据;
步骤3, 将通过 执行步骤2生成的去冗余数据添加到缓存表中;
步骤4, 检查所有节点, 当不再生成任何新的去冗余数据时, 执 行步骤5;
步骤5, 将所述缓存表中去冗余数据复制到替换表中;
步骤6, 为所述 替换表构建一个或多个索引语义数据;
步骤7, 将所述 替换表中的索引语义数据交换到所述关系数据表中的多个区域中;
步骤8, 丢弃 所述替换表和缓存表。
2.根据权利要求1所述的数据处理方法, 其特征在于, 所述步骤1具体包括: 将数据表示
成布尔矩阵,通过布尔矩阵分解算法将所述布尔矩阵进行分解, 引入最短距离来评估矩阵
分解的结果,最后通过分解后的子矩阵得 出数据之间的支持度来构造关系数据表。
3.根据权利 要求2所述的数据处理方法, 其特征在于, 用d={d1,d2, …,dm}表示所述关
系数据表中所有属性表的序号集合,T=(tid,X)表 示一个事务,其中tid表 示数据属性表主
体,X表示该数据属性表主体在所述关系数据表中出现的属性集合,X是d的子集,用D表 示包
含事务集合, 属性子集Y为X的子集, N为D中包含的事务个数, 属性子集Y的支持度为sup(Y)/
N, 其中N为D中的事务个数, sup(Y)定义如下:
若支持度大于最小支持度阈值, 则属性子集Y中属性间是强关联的。
4.根据权利要求3所述的数据处理方法, 其特征在于, 所述步骤2 的节点拓扑模型构建
的具体步骤如下:
步骤2.1,将事务 集合D中的所有的事务T都作为 一个节点;
步骤2.2,遍历所有属性子集Y, 将支持度大于分割阈值supt1的属性子集Y进行事务分
割;
步骤2.3,以分割阈值supt2为二次分割点, 分别将属性子集Y分割成两个子项集, 所述
supt2>supt1;
步骤2.4,对两个子项集分别循环执行步骤2.2和步骤2.3, 直到拓扑到最小的子集项,
每两个子集项之间的交点代 表最小节点;
步骤2.5,计算每个最小节点的支持度supn,将支 持度supn小于冗余 阈值的最小节点标
记为冗余节点, 与所述冗余节点连接的最小的子集项的数据标记为冗余数据;
步骤2.6,除去冗余数据和冗余节点相关联的拓扑分支, 保留去冗余后的节点拓扑模
型。
5.根据权利要求1所述的数据处 理方法, 其特 征在于, 所述 步骤7具体步骤如下:
步骤7.1, 在替换表上 执行元素查询;
步骤7.2, 搜索与每 个先行词匹配的元 素, 按照匹配概 率顺序连接匹配数据;
步骤7.3, 判断匹配概 率最高的匹配数据与关系数据表中的属性列名是否匹配;
若匹配概率最高的匹配数据与关系数据表中的属性列名匹配, 则进入到步骤7.4; 若匹权 利 要 求 书 1/2 页
2
CN 114610716 A
2配概率最高的匹配数据与关系数据表中的属性列名不匹配, 则进入到步骤7.5;
步骤7.4, 将该 元素交换到关系数据表中的多个区域中;
步骤7.5, 判断匹配概 率第二高的匹配数据, 回到步骤7.3 。
6.根据权利要求5所述的数据处理方法, 其特征在于, 所述步骤7.2中, 在匹配条件变化
时, 只对先 行词进行调整, 开发最少的先 行词的匹配参数。
7.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被
处理器执行时实现权利要求1至 6中任一项所述的数据处 理方法的步骤。权 利 要 求 书 2/2 页
3
CN 114610716 A
3
专利 一种数据处理方法及存储介质
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 11:14:55上传分享