说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210697632.2 (22)申请日 2022.06.20 (71)申请人 安徽大学 地址 230039 安徽省合肥市蜀山区肥西路3 号 (72)发明人 赵姝 殷俊 郭双瑞 张金磊  段震 陈洁  (74)专利代理 机构 合肥市浩智运专利代理事务 所(普通合伙) 34124 专利代理师 朱文振 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01) G06F 40/216(2020.01) G06F 16/35(2019.01) (54)发明名称 文档层次结构联合全局局部信息抽取关键 短语方法及系统 (57)摘要 本发明提供文档层次结构联合全局局部信 息抽取关键短语方法及系统, 方法包括: 分词和 磁性标注, NP分块; 判断文档长度, 根据文档长度 使用BERT模型进行文档和单词的嵌入; 全局相似 性度量, 本发 明创新性地使用文档标题和结尾来 对候选关键短语进行全局相似度评估, 解决因为 向量空间对齐造成的对较长候选短语的偏爱; 局 部相似度评估, 采用全新的主题中心度, 对全文 的候选关键短语进行主题划分和聚类, 充分捕获 到局部显著信息; 结合位置信息、 全局相似度、 局 部相似度对候选短语进行综合评估并打分, 然后 根据得分进行排名; 进行后处理操作, 以选择关 键短语。 本发明解决了语义丢失、 偏爱长短语、 主 体信息挖掘不充分导致关键短语抽取准确率低 的技术问题。 权利要求书4页 说明书12页 附图4页 CN 115017903 A 2022.09.06 CN 115017903 A 1.文档层次结构联合全局 局部信息抽取关键短语方法, 其特 征在于, 所述方法包括: S1、 利用StandfordCoreNLP工具对输入文档进行分词和词性标注, 根据预置抽取规则 进行NP分块, 以生成候选关键短语集 合; S2、 判断所述输入文档的长度是否小于或等于预置文档长度阈值, 若是, 则利用BERT模 型嵌入处理所述输入文档, 以得到向量表达, 若否, 则根据预置范围获取所述输入文档的指 定范围内容, 将所述指定范围内容输入所述SimCSE模型, 以进行嵌入获取所述候选关键短 语的所述向量表达、 标题向量及结尾向量; S3、 处理所述标题向量及所述结尾向量, 以对所述候选关键短语进行全局相似性度量, 据以得到全局相似度; S4、 利用主题中心度, 以预置逻辑对所述输入文档全文的所述候选关键短语进行主题 划分和聚类, 据以局部相似度评估得到局部相似度, 其中, 所述 步骤S4还 包括: S41、 以所述候选关键短语作为节点、 以所述节点间的相似度作为边, 据以构建完全无 向图; S42、 根据每一所述输入文档的最大值及最小值设置自适应滤噪阈值; S43、 根据所述自适应滤噪阈值更新将所述边的权重, 以得到局部显著性数据, 根据所 述局部显著性数据得到更新 边; S44、 获取所述输入文档全文的所述 候选关键短语的位置信息; S45、 根据所述 位置信息计算得到所述局部相似度; S5、 结合处理所述位置信息、 所述全局相似度、 所述局部相似度, 以对所述候选关键短 语进行综合评估并打 分, 据以排序处 理所述候选关键短语, 以得到关键短语排名数据; S6、 根据所述关键短语排名数据得到候选关键短语排序数据集, 对所述候选关键短语 进行后处理操作, 删除所述候选 关键短语集合的子集, 以获取语义多样性关键短语, 获取词 汇频率数据, 据以去除所述候选关键短语排序数据集上 的高频通用短语, 以滤除高频无效 短语干扰。 2.根据权利要求1所述的文档层次结构联合全局局部信息抽取关键短语方法, 其特征 在于, 所述 步骤S2包括: S21、 以BERT模型在所述输入文档的开始位置插 入CLS标记, 结束位置插 入SEP标记; S22、 嵌入学习所述输入文档, 据以得到每一to ken的向量: {H1,H2,…,Hn}=BERT({T1,T2,…,Tn}); S23、 再根据所述预置抽取规则得到所述候选关键短语的向量表示, 以得到所述候选短 语向量集合: S24、 将所述输入文档的标题和结尾送入所述BERT模型, 以得到得到标题向量Htitle及结 尾向量Hend。 S25将所述输入文档的结论及摘要分别输入到所述BERT模型进行嵌入操作, 以得到所 述向量表达; S26利用SimCSE模型对所述输入文档进行长文本上的表达 。 3.根据权利要求1所述的文档层次结构联合全局局部信息抽取关键短语方法, 其特征权 利 要 求 书 1/4 页 2 CN 115017903 A 2在于, 所述步骤S3中, 以下述逻辑处理标题向量Htitle和结尾向量Hend, 据以获取每一所述候 选关键短语i的所述全局相似度: 其中, ‖. ‖表示曼哈顿距离, 表示候选短语i与整个文档的全局相似度。 4.根据权利要求1所述的文档层次结构联合全局局部信息抽取关键短语方法, 其特征 在于, 所述 步骤S42包括: S421、 利用图中心性计算方法, 以下述逻辑处 理所述候选关键短语i: 其中, S422、 利用下述逻辑设置所述自适滤噪应阈值θ; θ =min(eij)+β×(max(eij)‑min(eij))。 5.根据权利要求1所述的文档层次结构联合全局局部信息抽取关键短语方法, 其特征 在于, 所述 步骤S43包括: S431、 利用下述逻辑处 理得到所述局部 显著性数据: 其中, 代表候选短语i的局部 显著性; S432、 根据所述局部显著性数据获取所述更新边, 在所述更新边的权重小于0时, 设置 该所述更新 边的权重为0。 6.根据权利要求1所述的文档层次结构联合全局局部信息抽取关键短语方法, 其特征 在于, 所述 步骤S44包括: S441、 以下述逻辑计算所述候选关键短语在所述输入文档中首次出现位置, 以作为候 选关键短语位置得分: 其中, p1是候选术语i首次出现的位置; S442、 利用softmax函数平滑处理所述候选关键短语位置得分, 以利用下述逻辑处理得 到所述位置信息: 7.根据权利要求1所述的文档层次结构联合全局局部信息抽取关键短语方法, 其特征 在于, 所述步骤S45中, 利用下述逻辑处理所述位置信息, 据以得所述候选关键短语i的所述 局部相似度 权 利 要 求 书 2/4 页 3 CN 115017903 A 3

.PDF文档 专利 文档层次结构联合全局局部信息抽取关键短语方法及系统

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文档层次结构联合全局局部信息抽取关键短语方法及系统 第 1 页 专利 文档层次结构联合全局局部信息抽取关键短语方法及系统 第 2 页 专利 文档层次结构联合全局局部信息抽取关键短语方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:13:45上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。