说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210612426.7 (22)申请日 2022.05.31 (71)申请人 北京智谱华 章科技有限公司 地址 100084 北京市海淀区中关村东路1号 院6号楼6层6 03A (72)发明人 于凯 王路路 蔡日辉 彭钰婷  刘佳 张鹏  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 罗岚 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/383(2019.01) G06F 16/33(2019.01) G06F 40/216(2020.01)G06F 40/279(2020.01) (54)发明名称 一种联合知识图谱的热度排序方法及装置 (57)摘要 本申请提出了一种联合知识图谱的热度排 序方法及装置, 涉及信息处理技术领域, 其中, 该 方法包括: 获取预设数量的论文文献, 对所述论 文文献进行实体识别, 从所述论文文献中抽取出 目标实体; 从所述目标 实体中抽取出关系属性和 实体属性, 并根据所述目标 实体的关系属性和实 体属性, 构建知识图谱; 获取包含所述目标实体 的评论文本, 根据所述评论文本中包含的实体关 系, 与所述知识图谱构建实体链接; 根据链接到 的所述目标 实体与所述评论文本的词频 ‑逆文本 频率指数值确定实体热度值, 根据所述实体热度 值对所述知识 图谱中目标实体的热度属性进行 更新。 本发 明通过抽取论文文献内的实体构建知 识图谱, 并根据论文评论预测论文中实体的热度 属性值, 科学合理的给出实体热度排序, 以正确 准确的实现实体内容推荐, 并可以实时的更新实 体的热度属性 值。 权利要求书3页 说明书10页 附图5页 CN 114969371 A 2022.08.30 CN 114969371 A 1.一种联合知识图谱的热度排序方法, 其特 征在于, 包括: 获取预设数量的论文文献, 对所述论文文献进行实体识别, 从所述论文文献中抽取出 目标实体; 从所述目标实体中抽取出关系属性和实体属性, 并根据 所述目标实体的关系属性和实 体属性, 构建知识图谱; 获取包含所述目标实体的评论文本, 根据所述评论文本中包含的实体关系, 与所述知 识图谱构建实体链接; 根据链接到的所述目标实体与所述评论文本的词频 ‑逆文本频率指数值确定实体热度 值, 根据所述实体热度值对所述知识图谱中目标实体的热度属性进行 更新。 2.根据权利要求1所述的方法, 其特征在于, 所述对所述论文文献进行实体识别, 从所 述论文文献中抽取 出目标实体, 包括: 从所述论文文献中提取文献内容, 并将所述文献内容 转换为预设格式的文献内容; 对所述预设格式的文献内容进行分句处理, 得到所述文献内容对应的内容片段, 对所 述内容片段中的内容进行 标注, 得到所述内容片段对应的标注文本; 根据所述标注文本生成训练集, 根据所述训练集对第一模型进行训练, 根据训练后所 述第一模型的第一预测结果获取 所述目标实体。 3.根据权利要求1所述的方法, 其特征在于, 所述从所述目标实体中抽取出关系属性和 实体属性, 并根据所述目标实体的关系属性和实体属性, 构建知识图谱, 包括: 根据所述目标实体的三元组训练第 二模型, 并根据训练后的所述第 二模型的第 二预测 结果获取 所述关系属性; 抽取所述目标实体的实体属性值和语料文本, 将所述实体属性值和语料文本输入分类 器, 获取所述实体属性; 将所述目标实体、 所述关系属性和所述实体属性整理为元组形式并存入图数据库, 以 构建知识图谱。 4.根据权利要求1所述的方法, 其特征在于, 所述获取包含所述目标实体的评论文本, 根据所述评论文本中包 含的实体关系, 与所述知识图谱构建实体链接, 包括: 将实体字典与 所述包含所述目标实体的评论文本转换为向量, 并获取候选实体的相似 度, 公式化如下: 其中, xi为实体字典转换后的向量, yi为所述包含所述目标实体的评论文本转换后的向 量; 根据所述候选实体的提及比例和所述候选实体的相似度综合相乘的规则, 对所述候选 实体进行排序, 选出排名最高的候选实体与所述图数据库中的所述知识图谱构建实体链 接。 5.根据权利要求1所述的方法, 其特征在于, 在所述根据链接到的所述目标实体与 所述 评论文本的词频 ‑逆文本频率指数值之前, 还 包括: 计算词频TF值, 即所述目标实体在所述评论文本中出现的频率, 公式化如下:权 利 要 求 书 1/3 页 2 CN 114969371 A 2其中, ni,j是所述目标实体在文件dj中出现的次数, ∑knk,j为文件dj中所有词汇出现的 次数总和; 计算逆文本频率 IDF值, 公式化如下: 其中, |D|是语料库中的文件总数,|{j:ti∈dj}|表示包 含所述目标实体ti的文件数目; 计算词频 ‑逆文本频率指数值TF ‑IDF值, 公式化如下: TF‑IDF=TF*IDF。 6.根据权利要求5所述的方法, 其特 征在于, 所述确定实体热度值, 包括: 获取所述目标实体点击量与用户评论量, 并根据 所述实体点击量与用户评论量获取目 标实体本身热度值; 根据评论文本 接口获得文本 评论时间, 根据所述文本 评论时间获取 更新时间; 根据所述TF ‑IDF值, 目标实体本身热度值与更新时间, 获取实体热度值, 公式化如下: 其中, H为所述实体热度值, W为所述目标实体本身热度值, T为所述更新时间, G为重力 权重指数。 7.根据权利要求1 ‑6任一项所述的方法, 其特征在于, 所述根据 所述实体热度值对所述 知识图谱中目标实体的热度属性进行 更新, 还包括: 将所述实体热度值更新至所述图数据库, 获取节点的热度值属性, 以更新所述评论文 本数据和所述实体热度值。 8.一种联合知识图谱的热度排序装置, 其特 征在于, 包括: 实体抽取模块, 用于获取预设数量的论文文献, 对所述论文文献进行实体识别, 从所述 论文文献中抽取 出目标实体; 知识图谱构建模块, 用于从所述目标实体中抽取出关系属性和实体属性, 并根据所述 目标实体的关系属性和实体属性, 构建知识图谱; 链接构建模块, 用于获取包含所述目标实体的评论文本, 根据所述评论文本中包含的 实体关系, 与所述知识图谱构建实体链接; 热度值确定模块, 用于根据链接到的所述目标实体与所述评论文本的词频 ‑逆文本频 率指数值确定实体热度值, 根据所述 实体热度值对所述知识图谱中目标实体的热度属性进 行更新。 9.一种数据处 理电子设备, 其特 征在于, 包括: 处理器; 用于存储所述处 理器可执行指令的存 储器; 其中, 所述处理器被配置为执行所述指令, 以实现如权利要求1至7中任一项所述的方 法。 10.一种计算机可读存储介质, 当所述存储介质中的指令由数据处理电子设备的处理权 利 要 求 书 2/3 页 3 CN 114969371 A 3

.PDF文档 专利 一种联合知识图谱的热度排序方法及装置

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种联合知识图谱的热度排序方法及装置 第 1 页 专利 一种联合知识图谱的热度排序方法及装置 第 2 页 专利 一种联合知识图谱的热度排序方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:56:04上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。