说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210830961.X (22)申请日 2022.07.15 (71)申请人 云南电网有限责任公司电力科 学研 究院 地址 650000 云南省昆明市经济技 术开发 区云大西路10 5号 (72)发明人 尹春林 于虹 杨政 方正云  杨莉 王达达 唐立军 张林山  (74)专利代理 机构 深圳中细软知识产权代理有 限公司 4 4528 专利代理师 黄劼 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/216(2020.01) G06F 40/211(2020.01)G06F 16/31(2019.01) G06K 9/62(2022.01) (54)发明名称 语义级多模态多粒度文档重复度评估方法 和系统 (57)摘要 本发明实施例公开了一种语义级多模态多 粒度文档重复度评估方法和系统, 方法包括: 对 待检测文档中的每个组成部分进行向量的转化, 得到每个组成部分的分布式向量表 示, 组成部分 是指第一组成单元或者第二组成单元, 将每个分 布式向量表示与所对应的多个参考向量进行相 似度比较, 得到每个组成部分的多个初始重复 率; 确定每个第一组成单元的第一重复率; 基于 多个第二初始重复率和与每个第二初始重复率 对应的至少一个第一初始重复率, 得到每个第二 组成单元的多个待筛选第二重复率; 从每个第二 组成单元的多个待筛选第二重复率中, 得到每个 第二组成单元的第二重复率; 将第一总重复率和 第二总重复率进行加权求和, 得到待检测文档的 重复度评估结果。 权利要求书3页 说明书16页 附图4页 CN 115034230 A 2022.09.09 CN 115034230 A 1.一种语义级 多模态多粒度文档重复度评估方法, 其特 征在于, 包括: 对待检测文档中的每个组成部分进行向量的转化, 得到每个所述组成部分的分布式向 量表示, 所述组成部分是指第一组成单元或者第二组成单元, 所述第二组成单元中包括多 个第一组成单元, 所述组成部分具有索引, 每个组成部分的分布式向量表示与索引一一对 应; 根据索引, 在数据库中找到每个分布式向量表示所对应的多个参考向量, 并将每个所 述分布式向量表示与所对应的多个参考向量进行相似度比较, 得到每个所述组成部 分的多 个初始重复率; 所述数据库中包括多个参考文档, 每个参考文档包括多个参考组成部 分; 每 个参考组成部分具有索引和参 考向量; 从每个第一组成单 元的多个初始重复率中, 确定每 个第一组成单 元的第一重复率; 针对每个第二组成单元, 根据所述索引, 得到与每个第二初始重复率相对应的至少一 个第一初始重复率, 基于多个第二初始重复率和与每个第二初始重复率对应的至少一个第 一初始重复率, 得到每个第二初始重复率对应的待筛选第二重复率; 从多个待筛选第二重 复率中, 得到所述第二组成单元的第二重复率; 其中, 所述第二初始重复率为所述第二组成 单元的初始重复率, 第一初始重复率 为所述第一组成单 元的初始重复率; 将第一总重复率和第二总重复率进行加权求和, 得到待检测文档的重复度评估结果, 其中, 所述第一总重复率是指多个第一重复率的加权求和的结果, 所述第二总重复率是指 多个第二重复率的加权求和的结果。 2.根据权利要求1所述的语义级多模态多粒度文档 重复度评估方法, 其特征在于, 所述 组成部分还是指第三组成单 元, 第三组成单 元包括多个第二组成单 元; 在所述从多个待筛选第二重复率中, 得到所述第二组成单元的第二重复率之后, 还包 括: 针对每个第三组成单元, 根据所述索引, 得到与每个第三初始重复率相对应的至少一 个第二初始重复率, 基于多个第三初始重复率和与每个第三初始重复率对应的至少一个第 二初始重复率, 得到每个第三初始重复率对应的待筛选第三重复率; 从多个待筛选第三重 复率中, 得到所述第三组成单元的第三重复率; 其中, 所述第三初始重复率为所述第三组成 单元的初始重复率。 3.根据权利要求1所述的语义级多模态多粒度文档 重复度评估方法, 其特征在于, 所述 根据所述索引, 得到与每个第二初始重复率相对应的至少一个第一初始重复率, 基于多个 第二初始重复率和与每个第二初始重复率对应的至少一个第一初始重复率, 得到每个第二 初始重复率对应的待筛选第二重复率; 从多个待筛选第二重复率中, 得到所述第二组成单 元的第二重复率, 包括: 根据第二初始重复率, 得到与所述第 二初始重复率对应的参考向量以及所述参考向量 的第二参考组成部分, 根据第一初始重复率, 确定与所述第一初始重复率对应的参考向量 以及所述参考向量的第一参考组成部分, 若根据第二参考组成部分的索引以及第一参考组 成部分的索引, 判定所述第二参考组成部分与第一参考组成部分属于同一个参考文档, 则 将所述第一初始重复率记为所述第二初始重复率的元 素比较重复率; 基于第二组成单元的每个第二初始重复率和与每个第二初始重复率对应的至少一个 元素比较重复率, 得到每 个第二初始重复率对应的待筛 选第二重复率;权 利 要 求 书 1/3 页 2 CN 115034230 A 2将多个待筛 选第二重复率中的最高值, 作为所述第二组成单 元的第二重复率。 4.根据权利要求1所述的语义级多模态多粒度文档 重复度评估方法, 其特征在于, 在所 述将第一总重复率和第二总重复率进行加权求和, 得到待检测文档的重复度评估结果之 后, 还包括: 生成所述待检测文档的重复度评估报告, 所述重复度评估报告包括各第一重复率、 第 二重复率以及重复度评估结果。 5.根据权利要求2所述的语义级多模态多粒度文档 重复度评估方法, 其特征在于, 所述 第三组成单元包括章节, 所述第二组成单元包括段落, 所述第一组成单元包括图像、 表格、 句子中的至少一项。 6.根据权利要求5所述的语义级多模态多粒度文档 重复度评估方法, 其特征在于, 所述 针对每个第二组成单元, 根据所述索引, 得到与每个第二初始重复率相对应的至少一个第 一初始重复率, 基于多个第二初始重复率和与每个第二初始重复率对应的至少一个第一初 始重复率, 得到每个第二初始重复率对应的待筛选第二重复率; 从多个待筛选第二重复率 中, 得到所述第二组成单 元的第二重复率, 包括: 针对每个段落, 根据索引, 得到与每个第二初始重复率对应的至少一个类别的至少一 个第一组成单元的第一初始重复率, 基于每个第二初始重复率和与每个第二初始重复率对 应的至少一个类别的至少一个第一初始重复率, 得到每个第二初始重复率对应的待筛选第 二重复率, 从多个待筛 选第二重复率中, 得到所述段落的第二重复率。 7.根据权利要求5所述的语义级多模态多粒度文档 重复度评估方法, 其特征在于, 在所 述在数据库中找到每 个分布式向量表示所对应的多个参 考向量之前, 还 包括: 构建数据库, 所述构建数据库, 包括: 将每个参考文档进行拆分, 得到每 个参考文档的参 考组成部分; 构建每个参考组成部分的索引; 若所述参考组成部分为章节、 段落或者句子, 则通过SBERT模型对所述参考组成部分进 行处理, 得到所述 参考组成部分的参 考向量; 若所述参考组成部分为图像或者表格, 则通过VGG19模型对所述参考部分进行处理, 得 到所述参考组成部分的参 考向量; 由参考组成部分、 每个参考组成部分的参考向量以及每个参考组成部分的索引构建数 据库。 8.一种语义级 多模态多粒度文档重复度评估系统, 其特 征在于, 包括: 向量转化模块, 用于对待检测文档 中的每个组成部分进行向量的转化, 得到每个所述 组成部分的分布式向量表示, 所述组成部分是指第一组成单元或者第二组成单元, 所述第 二组成单元中包括多个第一组成单元, 所述组成部分具有索引, 每个组成部分的分布式向 量表示与索引一 一对应; 比较模块, 用于根据索引, 在数据库中找到每个分布式向量表示所对应的多个参考向 量, 并将每个所述分布式向量表示与所对应的多个参考向量进行相似度比较, 得到每个所 述组成部分的多个初始重复率; 所述数据库中包括多个参考文档, 每个参考文档包括多个 参考组成部分; 每 个参考组成部分具有索引和参 考向量;权 利 要 求 书 2/3 页 3 CN 115034230 A 3

.PDF文档 专利 语义级多模态多粒度文档重复度评估方法和系统

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 语义级多模态多粒度文档重复度评估方法和系统 第 1 页 专利 语义级多模态多粒度文档重复度评估方法和系统 第 2 页 专利 语义级多模态多粒度文档重复度评估方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:14:53上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。