说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210745539.4 (22)申请日 2022.06.29 (65)同一申请的已公布的文献号 申请公布号 CN 114818737 A (43)申请公布日 2022.07.29 (73)专利权人 北京邮电大 学 地址 100876 北京市海淀区西土城路10号 (72)发明人 薛哲 杜军平 郑长伟 李文玲  梁美玉 邵蓥侠 寇菲菲  (74)专利代理 机构 北京金咨知识产权代理有限 公司 11612 专利代理师 岳燕敏 (51)Int.Cl. G06F 40/30(2020.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 US 2022058464 A1,202 2.02.24 CN 113378547 A,2021.09.10 CN 110688474 A,2020.01.14 US 202127182 2 A1,2021.09.02 CN 110705260 A,2020.01.17 CN 110705260 A,2020.01.17 CN 114048350 A,2022.02.15 CN 113254616 A,2021.08.13 CN 113704415 A,2021.1 1.26 审查员 初星妍 (54)发明名称 科技论文 数据文本语义特征提取方法、 系统 及存储介质 (57)摘要 本发明提供一种科技论文数据文本语义特 征提取方法、 系统及存储介质, 所述方法包括: 获 取科技论文的文本信息, 并基于获取到的科技论 文的文本信息构建实体关系图, 所述文本信息包 括论文标题以及关键词, 实体关系图中的节点为 论文标题或关键词, 实体关系图中的边为节点之 间的关联关系; 基于获取到的科技论文的文本信 息提取语义特征, 得到语义特征矩阵; 基于实体 关系图确定原始邻接矩阵, 将语义特征矩阵及所 述原始邻接矩阵输入至图网络模 型, 得到空间特 征矩阵; 将语义特征矩阵与空间特征矩阵进行特 征融合, 得到科技论文的最终语义特征。 该特征 提取方法在提取科技论文语料的语义特征的基 础上, 利用知识图谱的空间关联, 可较好的提取 到科技论文的语义特 征。 权利要求书2页 说明书8页 附图2页 CN 114818737 B 2022.11.18 CN 114818737 B 1.一种科技 论文数据文本语义特 征提取方法, 其特 征在于, 所述方法包括: 获取科技论文的文本信息, 并基于获取到的所述科技论文的文本信息构建实体关系 图, 所述文本信息包括论文标题以及关键词, 所述实体关系图中的节点为论文标题或关键 词, 所述实体关系图中的边为节点之间的关联关系, 且所述实体关系图中包括所述科技论 文的论文标题和关键词之间的关联关系; 基于获取到的所述科技 论文的文本信息提取语义特 征, 得到语义特 征矩阵; 基于所述实体关系图确定原始邻 接矩阵, 将所述语义特征矩阵及所述原始邻 接矩阵输 入至图网络模型, 得到空间特 征矩阵; 将所述语义特征矩阵与所述空间特征矩阵进行特征融合, 得到所述科技论文的最终语 义特征; 通过公式 Z= λZGCN+(1‑λ ) ZBERT将所述语义特征矩阵与所述空间特征矩阵进行特征融合; 其中,ZGCN为空间特 征矩阵,ZBERT为语义特 征矩阵,λ为超参数, 且 λ∈ (0,1) ; 基于得到的所述 最终语义特 征计算所述实体关系图中任意两个节点的余弦相似度; 基于所述 余弦相似度得到 重构邻接矩阵; 计算所述原始邻 接矩阵及重构邻 接矩阵的损失值, 基于所述损失值优化所述图网络模 型的参数; 所述图网络模型的损失函数为: ; 其中;S为余弦相似度矩阵, A为原始邻接矩阵, F代表F范数; 并且, 将获取到的所述科技 论文的文本信息 输入至BERT模型, 得到语义特 征矩阵; 其中, 语义特征矩阵表示为 ; d代表嵌入维度, Xdoc表示文本 信息中的论文标题对应的语义特征矩阵, 而 Xword表示文本信息中关键词对应的语义特征矩 阵,ndoc表示文本信息中论文标题的数量, 而 nword表示文本信息中关键词的数量。 2.根据权利要求1所述的科技论文数据文本语义特征提取方法, 其特征在于, 基于获取 到的所述科技 论文的文本信息构建实体关系图, 包括: 基于获取到的所述科技论文的文本信息通过逐点互信息算法计算任意两个节点之间 的相关性, 基于计算得到的相关性构建实体关系图。 3.根据权利要求2所述的科技论文数据文本语义特征提取方法, 其特征在于, 所述逐点 互信息算法的计算公式为: 其中 ,Wi表示 节点 i,Wj表示 节点 j, , , ,M表示科技论文文本摘要长度, C (Wi,Wj)表示节点 i和节点j在同一科技论 文文本摘要中的共现次数, C ( Wi) 表示节点 i在摘要中出 现的次数, C ( Wj) 表示节点 j在摘要中权 利 要 求 书 1/2 页 2 CN 114818737 B 2出现的次数。 4.根据权利要求1所述的科技论文数据文本语义特征提取方法, 其特征在于, 所述图网 络模型包括多层卷积层, 各 卷积层的输出为: ; 其中,L(i)为第i层的输出, L(i‑1)为第i‑1层的输出, ρ为激活函数, W(i)为模型参数, 为 邻接矩阵的拉普拉斯变换, ,D为度矩阵, 用于归一 化。 5.一种科技论文数据文本语义特征提取系统, 该系统包括处理器和存储器, 其特征在 于, 所述存储器中存储有计算机指令, 所述处理器用于执行所述存储器中存储的计算机指 令, 当所述计算机指 令被处理器执行时该系统实现如权利要求1至4中任意一项 所述方法的 步骤。 6.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器执 行时实现如权利要求1至4中任意 一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114818737 B 3

.PDF文档 专利 科技论文数据文本语义特征提取方法、系统及存储介质

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 科技论文数据文本语义特征提取方法、系统及存储介质 第 1 页 专利 科技论文数据文本语义特征提取方法、系统及存储介质 第 2 页 专利 科技论文数据文本语义特征提取方法、系统及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:14:20上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。