说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210468961.X (22)申请日 2022.04.29 (71)申请人 广东工业大 学 地址 510090 广东省广州市越秀区东 风东 路729号 (72)发明人 张伟文 陈星宇 叶海明 程良伦  (74)专利代理 机构 广州粤高专利商标代理有限 公司 44102 专利代理师 刘俊 (51)Int.Cl. G06F 16/9535(2019.01) G06F 16/36(2019.01) (54)发明名称 一种基于产业知识图谱的新闻重要度计算 方法 (57)摘要 本发明提出一种基于产业知识图谱的新闻 重要度的计算方法, 涉及产业新闻重要度计算的 技术领域, 解决了当前新闻的重要程度获取方法 缺少用户数据信息的情况下, 无法对新闻重要度 进行计算的问题, 明确待计算新闻重要度的产业 领域, 确定新闻实体及新闻实体关系, 基于新闻 实体及新闻实体 关系构建产业知识图谱; 引入新 闻实体节点介数、 新闻实体节点度数、 新闻实体 节点紧密度、 Page  Rank算法指标对产业知识图 谱进行评估; 采用熵权 法对所获取的指标进行计 算, 从而获取各个指标的权重; 对各个指标的权 重进行计算处理, 获得新闻重要度分数, 将重要 度分数高的产业新闻推荐 给用户, 提升新闻推荐 的质量和精确度。 权利要求书3页 说明书9页 附图2页 CN 114861052 A 2022.08.05 CN 114861052 A 1.一种基于产业知识图谱的新闻重要度的计算方法, 其特 征在于, 包括以下步骤: S1.明确待计算新闻重要度的产业领域, 确定新闻实体及新闻实体关系, 基于新闻实体 及新闻实体关系构建该产业领域的产业知识图谱; S2.根据构建的产业知识图谱, 引入新闻实体节点介数、 新闻实体节点度数、 新闻实体 节点紧密度、 Pa ge Rank算法指标对产业知识图谱进行评估; S3.采用熵权法对所获取的新闻实体节点介数、 新闻实体节点度 数、 新闻实体节点紧密 度、 Page Rank算法指标进行计算, 从而获取 各个指标的权 重; S4.对各个指标的权重进行计算处理, 获得新闻重要度分数, 将重要度分数高的产业新 闻推荐给用户。 2.根据权利要求1所述的基于产业知识图谱的新闻重要度的计算方法, 其特征在于, 在 步骤S1中, 新闻实体指产业领域新闻内容中具有实际意义的实体, 新闻实体关系指与新闻 实体相关联的关系, 产业知识图谱构建的具体步骤如下: S11.从开放的新闻链接数据中获取待计算新闻重要度的产业领域的新闻实体数据及 新闻实体关系数据; S12.将步骤S11中获取的新闻实体数据及新闻实体关系数据进行知识融合, 实现实体 对齐和实体消歧; S13.将步骤S12中融合的新闻实体数据及新闻实体关系数据存入关系数据库, 形成知 识库; S14.将步骤S13知识库中的新闻实体数据及新闻实体关系数据转化成知识图谱中的链 接数据, 从而构建产业知识图谱。 3.根据权利要求1所述的基于产业知识图谱的新闻重要度的计算方法, 其特征在于, 在 步骤S2中, 产业知识图谱中的节点表示新闻实体, 与新闻实体节点连接的边表示新闻实体 关系, 节点‑边‑节点之间形成路径, 产业知识图谱中某个新闻实体节点j 被其他若干最短路 径经过, 则表示该新闻实体节点在产业知识图谱中重要, 其重要性或影响力用新闻实体节 点的介数B表征, 表达式为: Bi=∑j≠l≠i[Njl(i)/Njl], 其中, i、 j、 l分别表示不相邻的新闻实体节点, Bi表示新闻实 体节点i的介数, Njl表示新闻实体节点j和新闻实体节点l之间的最短路径条数; Njl(i)表示 新闻实体节点j和新闻实体节点 l之间的最短路径路过新闻实体节点 i的条数。 4.根据权利要求1所述的基于产业知识图谱的新闻重要度的计算方法, 其特征在于, 在 步骤S2中, 所述 新闻实体节点的度包括 新闻实体节点的出度和入度: (1)新闻实体节点的出度表示从新闻实体节点 i出发连接的边数, 表达式为: 其中, 表示新闻实体节点的出度, Ni表示新闻实体节点i的邻居集合, 新闻实体aij表 示新闻实体节点 i和新闻实体节点j之间直接相连的边数; (2)新闻实体节点的入度表示指向新闻实体节点 i的连接边数, 表达式为: 其中, 表示新闻实体节点的入度, aji表示新闻实体节点j和新闻实体节点i之间直接 相连的边数;权 利 要 求 书 1/3 页 2 CN 114861052 A 2(3)新闻实体节点的总度数定义 为: 其中, ki表示新闻实体节点 i的总度数。 5.根据权利要求1所述的基于产业知识图谱的新闻重要度的计算方法, 其特征在于, 在 步骤S2中, 新闻实体节点紧密度的求取表达式为: 其中, Cc(i)表示新闻实体节点i紧密度, dij表示新闻实体节点i到新闻实体节点j的最 短距离, N表示网络中的节点数。 6.根据权利要求1所述的基于产业知识图谱的新闻重要度的计算方法, 其特征在于, 所 述新闻实体节点紧密度还能采用kernel 函数进行计算, kernel 函数公式表示 为: 其中, U(i)表示新闻实体节点i紧密度, dij表示新闻实体节点i到新闻实体节点j的最短 距离, p表示新闻实体节点vi到其余节点的非最短距离路线, L(p)表示这些非最短路线的长 度, h表示 kernel函数的宽度。 7.根据权利要求1所述的基于产业知识图谱的新闻重要度的计算方法, 其特征在于, 在 步骤S2中, 所述pa ge rank算法的流 程及规则如下: S21.设定所有新闻实体节点的初始Pa geRank值PRi(0), i=1, 2, ..., N, 满足: S22.在产 业知识图谱上随机行走k步, 将每个新 闻实体节点在第k ‑1步时的PR值分配给 其所指向的新闻实体节点, 每走一步相当于迭代一轮, 设定一个标度常数s∈(0, 1), 利用 PageRank校正规则计算各个新闻实体节 点的PR值, 将计算得出新闻实体节 点的PR值乘以标 度常数s进行缩减, 再将1 ‑s的值分给缩减后的PR值, 以保持知识图谱总的PR值为1, 即新闻 实体节点的PR值的求取公式为: 其中, PRi(k)表示所有新闻实体节点的PR值, aij表示新闻实体节点i和新闻实体节点j 之间直接相连的边数; 判断新闻实体节点i 是否指向链接 新闻实体节点j, 若是, 则aij=1; 否 则, 否则aij=0。 8.根据权利要求7所述的基于产业知识图谱的新闻重要度的计算方法, 其特征在于, 随 机行走一旦到达某个出度为0的新闻实体节点, 会永远停留在该新闻实体节点而无法再走 出来, 设该节点为悬挂节点, 若随机行走从某个节点出发, 无论该新闻实体节 点是否为悬挂 节点, 均允许以1 ‑s的概率随机选取产业知识图谱中的任意一个新闻实体节 点, 将选取的新 闻实体节点作为下一 步的目标节点。 9.根据权利要求1 ‑8任一项所述的基于产业知识图谱的新闻重要度的计算方法, 其特 征在于, 在步骤S3中, 熵权法计算过程包括: S31.将产业知识图谱中抽取出的所有新闻实体节点作为样本, 组成样本库, 对于样本 库中的n个样本、 4个指标, 4个指标分别为: 新闻实体节点介数、 新闻实体节点度数、 新闻实 体节点紧密度、 Page  Rank算法指标, 设定第i个样本的第j个指标的数值为xij, 其中i= 1, ..., n; j=1, . .., 4;权 利 要 求 书 2/3 页 3 CN 114861052 A 3

.PDF文档 专利 一种基于产业知识图谱的新闻重要度计算方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于产业知识图谱的新闻重要度计算方法 第 1 页 专利 一种基于产业知识图谱的新闻重要度计算方法 第 2 页 专利 一种基于产业知识图谱的新闻重要度计算方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:52:43上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。