说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210649852.8 (22)申请日 2022.06.09 (71)申请人 北京市科 学技术研究院 地址 100089 北京市海淀区西三环北路27 号 (72)发明人 谭晓 李佳娱 李辉 靳晓宏  西桂权  (74)专利代理 机构 北京城烽知识产权代理事务 所(特殊普通 合伙) 11829 专利代理师 王新月 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01) (54)发明名称 一种前沿主题 识别方法、 系统及计算机设备 (57)摘要 本发明提供了一种前沿主题识别方法、 系统 及计算机设备。 所述方法包括: 选择面向领域的 文献作为数据集, 将数据集进行预处理; 根据文 献共被引关系, 构建引文耦合矩阵并进行标准 化, 生成文献关系标准矩阵; 利用LDA模型进行文 本建模, 生成文献相似矩阵; 将文献相似矩阵和 文献关系标准化矩阵进行线性融合, 形成文本相 似矩阵; 利用社团发现, 得到主题簇, 对 所述主题 簇进行可视化描述, 得到对所述面向领域的文 献 的前沿主题的识别结果。 本发明的方法在同时分 析结构和语义层面有较高的效率, 在关键词消 歧、 人工解读方面有较高的准确度, 克服了以往 单一维度分析文本的弊端, 同时解决了文本相似 度、 融合的问题, 可广泛应用于结构和语义的文 本分析中。 权利要求书2页 说明书11页 附图4页 CN 115017315 A 2022.09.06 CN 115017315 A 1.一种前沿主题 识别方法, 其特 征在于, 包括: 步骤1, 选择面向领域的文献作为数据集, 并将所述数据集进行 预处理; 步骤2, 根据文献共被引关系, 构建引文耦合矩阵并进行标准化, 生成文献关系标准矩 阵; 步骤3, 利用LDA模型进行文本建模, 得到文档的主题概率分布, 并从内容层面计算文献 相似度, 生成文献相似矩阵; 步骤4, 将所述文献相似矩阵和文献关系标准化矩阵进行线性融合, 形成文本相似矩 阵; 步骤5, 利用社团发现, 得到主题簇, 对所述主题簇进行可视化描述, 得到对所述面向领 域的文献的前沿主题的识别结果。 2.根据权利要求1所述的前沿主题识别方法, 其特征在于, 在所述步骤1中, 将所述数据 集进行预处理, 包括: 将文本进行向量 化, 生成文本 ‑特征词矩阵以及文本 ‑引文矩阵。 3.根据权利要求1所述的前沿主题识别方法, 其特征在于, 在所述步骤2中, 根据文献共 被引关系, 构建引文 耦合矩阵并进行 标准化, 生成文献关系标准矩阵, 包括: 根据文献的耦合关系, 计算两篇文献的标准共引度d(x,y): 其中, Nx为文献x的参考文献数量, Ny为文献y的参考文献数量, Nxy为文献x与文献y共同 的参考文献数量。 4.根据权利要求1所述的前沿主题识别方法, 其特征在于, 在所述步骤3中, 利用LDA模 型进行文本 建模, 得到文档的主题概率分布, 并从内容层面计算文献相似度, 生成文献相似 矩阵, 包括: 利用LDA模型进行文本建模, 得到文档 ‑主题、 主题 ‑词分布矩阵, 挖掘出文本潜在的语 义知识; 根据余弦方向计算文献之间的相似度, 生成文献相似矩阵。 5.根据权利要求4所述的前沿主题识别方法, 其特征在于, 根据余弦方向计算文档之间 的相似度, 生成文献相似矩阵, 包括: 基于LDA模型的文献映射的主题向量为di=(t1,t2,……, tK), 两篇文献的相似度计算采 用两个主题向量的余弦值: 其中, di和dj分别表示两篇文献映射的主题向量, Sim(di, dj)是基于LDA模型主题向量的 余弦值测度的两篇文献的相似度。 6.根据权利要求1所述的前沿主题识别方法, 其特征在于, 在步骤4中, 将所述文献关系 标准化矩阵和文献相似矩阵进行线性融合, 形成文本相似矩阵, 包括: 所述线性融合 算法为:权 利 要 求 书 1/2 页 2 CN 115017315 A 2其中, λ为设定的权重; SimLDA表示所述文献相似矩阵中的文献 ‑文献相似值Sim值; citecouple表示所述文献关系标准化矩阵中的标准共引度; cite(i,j)是指任意两个映射文 献的节点i,j是否在基本引用网络中相邻, 若cite(i,j)=0则不相邻, 若cite(i,j)>0则相 邻; a和b为所述文献相似矩阵中的相似度的两个界限值; 遍历数据集, 将融合后的Sim值更新所述文献关系标准化矩阵, 生成所述文本相似矩 阵。 7.根据权利要求6所述的前沿主题 识别方法, 其特 征在于, 对于所述a和b的确定, 包括: 查看基于构建的LDA建模及文献相似矩阵, 按相似度由高到低的顺序排序, 选取 top10%, top10%中最小值即为a; 查看基于构 建的LDA建模及文献相似矩阵, 按相似度由低到高降序排列, 选取top10 %, top10%中最大值即为b。 8.一种前沿主题 识别系统, 其特 征在于, 包括: 预处理模块, 用于 选择面向领域的文献作为数据集, 并将所述数据集进行 预处理; 文献关系矩阵生成模块, 用于根据文献共被引关系, 构建引文耦合矩阵并进行标准化, 生成文献关系标准矩阵; 文献相似矩阵生成模块, 用于利用LDA模型进行文本建模, 得到文档的主题概率分布, 并从内容层面计算文献相似度, 生成文献相似矩阵; 数据融合模块, 用于将所述文献相似矩阵和文献关系标准化矩阵进行线性融合, 形成 文本相似矩阵; 数据分析模块, 用于利用社团发现, 得到主题簇, 并对所述主题簇进行可视化描述, 得 到对所述 面向领域的文献的前沿主题的识别结果。 9.一种计算机设备, 其特征在于, 包括存储器、 处理器及存储在存储器上并可在处理器 上运行的计算机程序, 所述处理器执行所述计算机程序时, 实现如权利要求1至7中任一项 所述的前沿主题 识别方法。 10.一种计算机可读存储介质, 其特征在于, 包括指令, 当所述指令在计算机上运行时, 使得计算机执 行如权利要求1至7中任一项所述的前沿主题 识别方法。权 利 要 求 书 2/2 页 3 CN 115017315 A 3

.PDF文档 专利 一种前沿主题识别方法、系统及计算机设备

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种前沿主题识别方法、系统及计算机设备 第 1 页 专利 一种前沿主题识别方法、系统及计算机设备 第 2 页 专利 一种前沿主题识别方法、系统及计算机设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:07:04上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。