说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111615921.5 (22)申请日 2021.12.27 (71)申请人 深圳前海微众 银行股份有限公司 地址 518000 广东省深圳市南 山区沙河西 路1819号深圳湾科技 生态园7栋A座 (72)发明人 杨超 徐为恺 杨杨 江旻  (74)专利代理 机构 深圳市世纪恒程知识产权代 理事务所 4 4287 代理人 邝艳菊 (51)Int.Cl. G06F 21/60(2013.01) G06F 21/64(2013.01) G06F 9/50(2006.01) (54)发明名称 针对频繁二项集的获取方法、 装置、 设备和 存储介质 (57)摘要 本发明公开了针对 频繁二项集的获取方法、 装置、 终端设备及存储介质, 通过针对数据集合 的元素出现的次数持续进行检测计数, 若所述元 素的出现的次数的计数数值达到预设阈值, 则将 所述元素计入部分频繁一项集, 其中, 所述预设 阈值为用户根据实际需求设定的最小支持度; 根 据所述部分频繁一项集针对所述数据集合形成 的项对进行筛选; 针对经过筛选得到的项对进行 哈希运算; 根据所述哈希运算的结果与所述预设 阈值获取频繁二项集。 如此, 本发明提供的针对 频繁二项集的获取方法, 针对PCY ‑Multistage算 法进行改进, 仅在项对符合部分频繁一项集的情 况才进行哈希 运算, 从而在计算频繁二项集时能 够减小设备内存消耗, 提高用户的使用体验。 权利要求书2页 说明书11页 附图2页 CN 114297681 A 2022.04.08 CN 114297681 A 1.一种针对频繁二项集的获取方法, 其特征在于, 所述针对频繁二项集的获取方法应 用于PCY‑Multista ge数据分析算法, 所述针对频繁二项集的获取 方法包括以下步骤: 针对数据集合的元素出现的次数持续进行检测计数, 若所述元素的出现的次数的计数 数值达到预设阈值, 则将所述元素计入部 分频繁一项集, 其中, 所述预设阈值为用户根据实 际需求设定的最小支持度; 根据所述部分频繁一项集针对所述数据集 合形成的项对进行筛 选; 针对经过筛选得到的项对进行哈希运 算; 根据所述哈希运 算的结果与所述预设阈值获取 频繁二项集。 2.如权利要求1所述的针对频繁二项集的获取方法, 其特征在于, 在所述计入部分频繁 一项集的步骤之后, 还 包括: 停止对计入所述部分频繁一项集的元 素进行出现的次数计数。 3.如权利要求1所述的针对频繁二项集的获取方法, 其特征在于, 所述根据所述部分频 繁一项集针对所述数据集 合形成的项对进行筛 选的步骤, 可以包括: 根据所述数据集 合形成的项对获取对应的项对元 素; 将所述项对元 素与所述部分频繁一项集进行比对, 以得到比对结果; 根据所述比对结果针对所述项对进行筛 选。 4.如权利要求1所述的针对频繁二项集的获取方法, 其特征在于, 在所述针对经过筛选 得到的项对进行哈希运 算的步骤之前, 还 包括: 确定用于所述哈希运 算的哈希公式; 所述针对经 过筛选得到的项对进行哈希运 算的步骤, 可以包括: 基于所述哈希公式针对所述经过筛选得到的项对进行运算得到哈希值, 基于所述哈希 值确定经 过筛选得到的项对 对应的哈希桶; 基于所述哈希桶确定经 过筛选得到的项对 对应的哈希桶集。 5.如权利要求4所述的针对频繁二项集的获取方法, 其特征在于, 所述哈希公式为多 个, 所述基于所述哈希公式针对所述经过筛选得到的项对进行运算得到哈希值, 基于所述 哈希值确定经 过筛选得到的项对 对应的哈希桶的步骤, 可以包括: 基于多个哈希公式分别针对所述经过筛选得到的项对进行运算, 以得到所述经过筛选 得到的项对 对应的多个哈希值; 基于所述多个哈希值确定所述经 过筛选得到的项对 对应的多个哈希桶; 所述基于所述哈希桶确定所述经过筛选得到的项对对应的哈希桶集的步骤, 可以包 括: 基于所述多个哈希桶确定所述经 过筛选得到的项对 对应的多个哈希桶集。 6.如权利要求4所述的针对频繁二项集的获取方法, 其特征在于, 所述根据所述哈希运 算的结果与所述预设阈值获取 频繁二项集的步骤, 可以包括: 统计所述哈希桶 集中的各哈希桶出现的次数, 并将达到所述预设阈值的次数对应的哈 希桶, 确定为频繁哈希桶; 若所述经过筛选得到的项对对应的哈希值属于所述频繁哈希桶, 则将所述经过筛选得 到的项对计入候选二项集; 基于所述 候选二项集获取 所述频繁二项集。权 利 要 求 书 1/2 页 2 CN 114297681 A 27.如权利要求6所述的针对频繁二项集的获取方法, 其特征在于, 所述基于所述候选二 项集获取 所述频繁二项集的步骤, 可以包括: 将所述候选二项集中的各项对的出现次数与所述预设阈值进行比对; 若所述候选二项集中的项对的出现次数达到所述预设阈值, 则确定所述候选二项集中 的项对为频繁项对; 将多个所述频繁项对组建形成一个集 合, 并将所述 集合标记为频繁二项集。 8.一种针对频繁二项集的获取装置, 其特征在于, 所述针对频繁二项集的获取装置包 括: 检测计数模块, 用于针对数据集合的元素出现的次数持续进行检测计数, 若所述元素 的出现的次数的计数数值达到预设阈值, 则将所述元素计入部 分频繁一项集, 其中, 所述预 设阈值为用户根据实际需求设定的最小支持度; 筛选模块, 用于根据所述部分频繁一项集针对所述数据集 合形成的项对进行筛 选; 哈希运算模块, 用于针对经 过筛选得到的项对进行哈希运 算; 获取模块, 用于根据所述哈希运 算的结果与所述预设阈值获取 频繁二项集。 9.一种终端设备, 其特征在于, 所述终端设备包括: 存储器、 处理器及存储在所述存储 器上并可在所述处理器上运行的针对频繁二项集的获取程序, 所述针对频繁二项集的获取 程序被所述处理器执行时实现如权利要求1至7中任一项所述的针对频繁二项集的获取方 法的步骤。 10.一种计算机存储介质, 其特征在于, 所述计算机存储介质上存储有计算机程序, 所 述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的针对频繁二项集的获 取方法的步骤。权 利 要 求 书 2/2 页 3 CN 114297681 A 3

.PDF文档 专利 针对频繁二项集的获取方法、装置、设备和存储介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 针对频繁二项集的获取方法、装置、设备和存储介质 第 1 页 专利 针对频繁二项集的获取方法、装置、设备和存储介质 第 2 页 专利 针对频繁二项集的获取方法、装置、设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 04:16:23上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。