说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210648815.5 (22)申请日 2022.06.09 (71)申请人 北京智谱华 章科技有限公司 地址 100084 北京市海淀区中关村东路1号 院6号楼6层6 03A (72)发明人 屈亮亮 张鹏 朱一凡 孙梦阳  刘德兵  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 罗岚 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 40/284(2020.01) G06F 16/335(2019.01)G06K 9/62(2022.01) (54)发明名称 对科技概念图谱进行概念扩展的方法和装 置 (57)摘要 本申请提出了一种对科技概念图谱进行概 念扩展的方法, 包括: 使用全文检索与规则过滤 的方式查询输入语料中与待扩展节点关联的文 献, 根据查询到的文 献的展示顺序选择预定比例 的文献作为目标文献; 选择目标文献中的长度大 于预设阈值的自填关键词作为候选种子概念集 合并进行筛选, 得到目标种子概念; 基于目标文 献、 使用N ‑Gram生成第一候选短语集合, 并使用 关键词抽取算法生成第二候选短语集合, 然后根 据第一、 二候选短语集合生成候选概念集合; 对 候选概念集合进行筛选, 得到目标候选概念; 使 用目标种子概念对目标候选概念的权重进行调 整, 生成目标概念集合。 采用上述方案的本申请 能够完成对多种科技领域的扩展任务, 并兼顾准 确率和召回率。 权利要求书3页 说明书11页 附图3页 CN 115062622 A 2022.09.16 CN 115062622 A 1.一种对科技 概念图谱进行概念 扩展的方法, 其特 征在于, 包括以下步骤: 使用全文检索与规则过滤的方式查询输入语料中与待扩展节点关联的文献, 根据查询 到的文献的展示 顺序选择 预定比例的文献作为目标文献; 选择所述目标文献中的长度大于预设阈值的自填关键词作为 候选种子概念集 合; 对所述候选种子概念集 合进行筛 选, 得到目标种子概念; 基于所述目标文献、 使用N ‑Gram生成第一候选短语集合, 并使用关键词抽取算法生成 第二候选短语集合, 然后根据所述第一候选短语集合和所述第二候选 短语集合生成候选概 念集合; 对所述候选概念集 合进行筛 选, 得到目标候选概念; 使用所述目标种子概念 对所述目标候选概念的权 重进行调整, 生成目标概念集 合。 2.如权利要求1所述的方法, 其特征在于, 所述对所述候选种子概念集合进行筛选, 包 括: 对所述候选种子概念集合进行去重后, 计算集合中每个候选种子概念与所述待扩展节 点的语义相似度和字符串相似度; 根据语义相似度和字符串相似度计算每个候选种子概念的得分, 根据得分对所有候选 种子概念进行排序筛 选, 得到目标种子概念。 3.如权利要求1所述的方法, 其特征在于, 所述使用关键词抽取算法生成所述第 二候选 短语集合, 包括: 基于所述目标文献, 预 先使用分词器对输入语料中每篇文献的标题与摘要 进行分词; 使用TOPN的方式对分词后的所有词汇进行排序筛 选, 得到第二 候选短语集 合; 将所述第一 候选短语集 合与所述第二 候选短语集 合的并集作为所述 候选概念集 合; 所述对所述 候选概念集 合进行筛 选, 包括: 计算所述候选概念集合中每个候选概念的分数, 保留分数大于 固定阈值的概念作为最 终的目标候选概念, 其中, 所述使用TOPN的方式对分词后的所有词汇进行排序筛选, 得到第二候选短语集 合, 包括: 计算所述目标文献中每篇文献所包含短语的TF ‑IDF值, 并根据TF ‑IDF值选择单篇文献 的候选短语; 基于所述目标文献中的所有 文献的候选短语构成所述第二 候选短语集 合; 所述每个候选概念的分数为: 其中, score(ci)为候选概念ci的分数, sim(ci,v3)为候选概念ci与待扩展节点v3间的语 义相似度, 为第一候选概念集合, 为第二候选概念集合, tf ‑idf(ci)表示候选概念ci 在其出现文献中的TF ‑IDF值。 4.如权利要求2或3所述的方法, 其特征在于, 所述使用所述目标种子概念对所述目标 候选概念的权 重进行调整, 包括: 根据目标候选概念、 目标种子概念在其所 出现的目标文献摘要中查找相应的上 下文;权 利 要 求 书 1/3 页 2 CN 115062622 A 2计算每个目标候选概念与 所有目标种子概念的语义相关性, 每个目标候选概念与 所有 目标种子概念的 的上下文的语义相关性; 将两部分分数组合, 作为目标候选概念微调后的权重, 所有经过微调权重的目标候选 概念构成所述目标概念集 合。 5.一种对科技概念图谱进行概念扩展的装置, 其特征在于, 包括获取目标种子概念模 块、 生成目标候选概念 模块、 微调概念权 重模块, 其中, 所述获取目标种子概念 模块, 用于: 使用全文检索与规则过滤的方式查询输入语料中与待扩展节点关联的文献, 根据查询 到的文献的展示 顺序选择 预定比例的文献作为目标文献; 选择所述目标文献中的长度大于预设阈值的自填关键词作为 候选种子概念集 合; 对所述候选种子概念集 合进行筛 选, 得到目标种子概念; 所述生成目标候选概念 模块, 用于: 基于所述目标文献、 使用N ‑Gram生成第一候选短语集合, 并使用关键词抽取算法生成 第二候选短语集合, 然后根据所述第一候选短语集合和所述第二候选 短语集合生成候选概 念集合; 对所述候选概念集 合进行筛 选, 得到目标候选概念; 所述微调概念权重模块, 用于使用所述目标种子概念对所述目标候选概念的权重进行 调整, 生成目标概念集 合。 6.如权利要求5所述的装置, 其特征在于, 所述对所述候选种子概念集合进行筛选, 包 括: 对所述候选种子概念集合进行去重后, 计算集合中每个候选种子概念与所述待扩展节 点的语义相似度和字符串相似度; 根据语义相似度和字符串相似度计算每个候选种子概念的得分, 根据得分对所有候选 种子概念进行排序筛 选, 得到目标种子概念。 7.如权利要求5所述的装置, 其特征在于, 所述使用关键词抽取算法生成第 一候选短语 集合, 包括: 基于所述目标文献, 预 先使用分词器对输入语料中每篇文献的标题与摘要 进行分词; 使用TOPN的方式对分词后的所有词汇进行排序筛 选, 得到第二 候选短语集 合; 将所述第一 候选短语集 合与所述第二 候选短语集 合的并集作为所述 候选概念集 合; 所述对所述 候选概念集 合进行筛 选, 包括: 计算所述候选概念集合中每个候选概念的分数, 保留分数大于 固定阈值的概念作为最 终的目标候选概念, 其中, 所述使用TOPN的方式对分词后的所有词汇进行排序筛选, 得到第二候选短语集 合, 包括: 计算所述目标文献中每篇文献所包含短语的TF ‑IDF值, 并根据TF ‑IDF值选择单篇文献 的候选短语; 基于所述目标文献中的所有 文献的候选短语构成所述第二 候选短语集 合; 所述每个候选概念的分数为:权 利 要 求 书 2/3 页 3 CN 115062622 A 3

.PDF文档 专利 对科技概念图谱进行概念扩展的方法和装置

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 对科技概念图谱进行概念扩展的方法和装置 第 1 页 专利 对科技概念图谱进行概念扩展的方法和装置 第 2 页 专利 对科技概念图谱进行概念扩展的方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:12:38上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。