说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211127823.1 (22)申请日 2022.09.16 (71)申请人 新华三技术有限公司 地址 310052 浙江省杭州市滨江区长河路 466号 (72)发明人 郑乾坤  (51)Int.Cl. G06F 3/06(2006.01) G06F 16/215(2019.01) G06F 16/22(2019.01) (54)发明名称 元数据垃圾识别方法、 装置和设备 (57)摘要 本发明提供一种元数据垃圾识别方法、 装置 和设备, 用于解决采用重定向写ROW技术的存储 系统中垃圾元数据的识别和标记的技术问题。 本 发明使用基于结构化数据合并存储引擎实现的 数据库存储 元数据, 并在数据合并过程中加入识 别和标记垃圾元数据的处理, 利用结构化数据合 并存储引擎执行数据合并的过程实现垃圾元数 据的高效识别和标记, 从而提高存储空间利用率 和存储性能。 权利要求书2页 说明书7页 附图3页 CN 115509446 A 2022.12.23 CN 115509446 A 1.一种元 数据垃圾识别方法, 其特 征在于, 该 方法包括: 采用结构化数据合并存 储引擎存 储分布式存 储系统中的元 数据; 在结构化数据合并存储引擎执行上层存储到下层存储的合并过程中, 通过上层存储与 下层存储中的键值对的关键 字遍历匹配来识别和标记位于下层存 储中的垃圾元 数据。 2.根据权利要求1所述的方法, 其特征在于, 所述通过上层存储与下层存储中的键值对 的关键字遍历匹配来识别和标记位于下层存 储中的垃圾元 数据的方法为: 在上层存储到下层存储的数据合并过程被触发时, 基于上层存储中的每个有序键值对 集合筛选出下层存储中所有键值有交集的相关有序键值对集 合; 依次从上层存储中每个有序键值对集合中获取当前键值对, 在下层存储中的所有相关 有序键值对集 合中进行关键 字遍历匹配; 若判定在下层存储中存在相同键值的键值对, 则将下层存储中相同关键字对应的键值 对标记为垃圾元 数据; 将上层存 储中的当前键值对加入到待合并的缓存队列中。 3.根据权利要求2所述的方法, 其特 征在于, 所述方法还 包括: 在完成上层存储中所有有序键值对集合中的键值对的关键字遍历匹配处理后, 将待合 并的缓存队列中的键值对与下层存 储进行合并处 理。 4.根据权利要求3所述的方法, 其特 征在于, 所述采用结构化数据合并存储引 擎存储分布式存储系统中的元数据是指采用结构化 日志合并LSM存 储引擎的数据库存 储分布式存 储系统中的元 数据。 5.根据权利要求 4所述的方法, 其特 征在于, 所述结构化日志合并LSM存 储引擎的数据库为rocksdb; 所述有序键值对集 合为排序字符串表S ST。 6.一种元 数据垃圾识别装置, 其特 征在于, 该装置包括: 元数据存储模块, 用于采用结构化数据合并存储引擎存储分布式存储系统中的元数 据; 垃圾识别模块, 用于在结构化数据合并存储引擎执行上层存储到下层存储的合并过程 中, 通过上层 存储与下层存储中的键值对的关键字遍历匹配来识别和标记位于下层 存储中 的垃圾元 数据。 7.根据权利要求6所述的装置, 其特 征在于, 所述垃圾识别模块包括: 筛选模块, 用于在上层存储到下层存储的数据合并过程被触发时, 基于上层存储中的 每个有序键值对集 合筛选出下层存储中所有键值有交集的相关有序键值对集 合; 遍历标记模块, 用于依次从上层存储中每个有序键值对集合中获取当前键值对, 在下 层存储中的所有相关有序键值对集合中进 行关键字遍历匹配; 在判定在下层存储中存在相 同键值的键值对, 则将下层存储中相同关键字对应的键值对标记为垃圾元数据; 将上层存 储中的当前键值对加入到待合并的缓存队列中。 8.根据权利要求7 所述的装置, 其特 征在于, 在所述垃圾识别模块完成上层存储中所有有序键值对集合中的键值对的关键字遍历 匹配处理后, 由所述元数据存储模块中的结构化数据合并存储引擎将待合并的缓存队列中 的键值对与下层存 储进行合并处 理。权 利 要 求 书 1/2 页 2 CN 115509446 A 29.一种电子设备, 其特征在于, 包括处理器、 通信接口、 存储介质和通信总线, 其中, 处 理器、 通信接口、 存 储介质通过通信总线完成相互间的通信; 存储介质, 用于存放计算机程序; 处理器, 用于执行存储介质上所存放的计算机程序时, 实施权利要求1 ‑5中任一项所述 的方法步骤。 10.一种存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序当被处理器 执行时实施如权利要求1至 5中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115509446 A 3

.PDF文档 专利 元数据垃圾识别方法、装置和设备

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 元数据垃圾识别方法、装置和设备 第 1 页 专利 元数据垃圾识别方法、装置和设备 第 2 页 专利 元数据垃圾识别方法、装置和设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:34:36上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。