说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210825995.X (22)申请日 2022.07.14 (71)申请人 北京金山数字 娱乐科技有限公司 地址 100085 北京市海淀区西二 旗中路33 号院5号楼1 1层002号 (72)发明人 郭馨泽 李长亮  (74)专利代理 机构 北京智信禾专利代理有限公 司 11637 专利代理师 金鹏 (51)Int.Cl. G06F 40/258(2020.01) G06F 40/205(2020.01) G06F 40/279(2020.01) G06F 16/36(2019.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 关键词提取方法及装置 (57)摘要 本申请提供关键词提取方法及 装置, 其中所 述关键词提取方法包括: 获取待处理文本, 识别 待处理文本的文本类型; 根据文本类型, 确定文 本类型对应的知识图谱; 提取待处理文本中的关 键词; 将知识图谱中的信息与提取得到的关键词 进行相似度对比, 基于对比结果确定待处理文本 的目标关键词。 通过上述方法, 利用待处理文本 的文本类型, 能够确定出与文本类型所属领域相 对应的知识图谱, 然后利用知识图谱与待处理文 本中的关键词进行相似度对比, 从而可以提取出 准确的、 与待处理文本所属领域 关联程度高的目 标关键词, 提高了关键词提取的准确性。 权利要求书2页 说明书17页 附图6页 CN 115204156 A 2022.10.18 CN 115204156 A 1.一种关键词提取 方法, 其特 征在于, 包括: 获取待处 理文本, 识别所述待处 理文本的文本类型; 根据所述文本类型, 确定所述文本类型对应的知识图谱; 提取所述待处 理文本中的关键词; 将所述知识图谱中的信 息与提取得到的关键词 进行相似度对比, 基于对比结果确定所 述待处理文本的目标关键词。 2.根据权利要求1所述的方法, 其特征在于, 所述知识图谱中的信 息包括实体信 息和属 性信息; 所述将所述知识图谱中的信 息与提取得到的关键词进行相似度对比, 基于对比结果确 定所述待处 理文本的目标关键词, 包括: 确定所述知识图谱中的实体信息和 属性信息对应的参 考词; 将提取得到的关键词依次与各参 考词进行相似度对比, 得到所述关键词的相似度; 若所述相似度大于或等于第一预设阈值, 则确定所述关键词为目标关键词。 3.根据权利要求2所述的方法, 其特征在于, 在所述确定所述知识图谱中的实体信 息和 属性信息对应的参 考词之后, 所述方法还 包括: 将各参考词与所述待处理文本进行匹配, 提取在所述待处理文本中出现、 且不是所述 待处理文本中关键词的目标参 考词作为目标关键词。 4.根据权利要求3所述的方法, 其特征在于, 所述提取在所述待处理文本中出现、 且不 是所述待处 理文本中关键词的目标参 考词作为目标关键词, 包括: 提取在所述待处 理文本中出现、 且不是 所述待处 理文本中的关键词的目标参 考词; 将所述目标参 考词输入预 先训练的关键词识别模型, 得到所述目标参 考词的关键度; 若所述关键度大于或等于第二预设阈值, 则确定所述目标参 考词作为目标关键词。 5.根据权利要求4所述的方法, 其特征在于, 在所述将所述目标参考词输入预先训练 的 关键词识别模型, 得到所述目标参 考词的关键度之后, 所述方法还 包括: 若所述关键度小于所述第二预设阈值, 则 删除所述目标参 考词。 6.根据权利要求2 ‑5中任一项所述的方法, 其特征在于, 在所述将提取得到的关键词依 次与各参 考词进行相似度对比, 得到所述关键词的相似度之后, 所述方法还 包括: 若所述相似度小于所述第一预设阈值, 则 删除所述关键词。 7.根据权利要求1 ‑4中任一项所述的方法, 其特征在于, 所述文本类型包括文本所属的 垂直领域; 所述识别所述待处 理文本的文本类型, 包括: 将所述待处理文本输入预先训练的领域识别模型, 得到所述待处理文本所属的目标垂 直领域, 所述领域识别模型为利用携带有垂 直领域标签的样本文本对预设神经网络训练得 到; 所述根据所述文本类型, 确定所述文本类型对应的知识图谱, 包括: 根据所述目标垂直领域, 查找预先基于垂直领域建立的知识图谱库, 确定所述目标垂 直领域对应的知识图谱, 所述知识图谱库中记录有不同垂直领域对应的知识图谱。 8.一种关键词提取装置, 其特 征在于, 包括: 识别模块, 被 配置为获取待处 理文本, 识别所述待处 理文本的文本类型;权 利 要 求 书 1/2 页 2 CN 115204156 A 2知识图谱确定模块, 被 配置为根据所述文本类型, 确定所述文本类型对应的知识图谱; 提取模块, 被 配置为提取所述待处 理文本中的关键词; 目标关键词确定模块, 被配置为将所述知识图谱中的信 息与提取得到的关键词 进行相 似度对比, 基于对比结果确定所述待处 理文本的目标关键词。 9.一种计算设备, 其特 征在于, 包括: 存储器和处 理器; 所述存储器用于存储计算机可执行指令, 所述处理器用于执行所述计算机可执行指令 实现权利要求1至7任意 一项所述关键词提取 方法的步骤。 10.一种计算机可读存储介质, 其存储有计算机指令, 其特征在于, 该指令被处理器执 行时实现权利要求1至7任意 一项所述关键词提取 方法的步骤。权 利 要 求 书 2/2 页 3 CN 115204156 A 3

.PDF文档 专利 关键词提取方法及装置

文档预览
中文文档 26 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 关键词提取方法及装置 第 1 页 专利 关键词提取方法及装置 第 2 页 专利 关键词提取方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:57:13上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。