说明:收录全网最新的团体标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
文件分类
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210649852.8 (22)申请日 2022.06.09 (71)申请人 北京市科 学技术研究院 地址 100089 北京市海淀区西三环北路27 号 (72)发明人 谭晓 李佳娱 李辉 靳晓宏 西桂权 (74)专利代理 机构 北京城烽知识产权代理事务 所(特殊普通 合伙) 11829 专利代理师 王新月 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01) (54)发明名称 一种前沿主题 识别方法、 系统及计算机设备 (57)摘要 本发明提供了一种前沿主题识别方法、 系统 及计算机设备。 所述方法包括: 选择面向领域的 文献作为数据集, 将数据集进行预处理; 根据文 献共被引关系, 构建引文耦合矩阵并进行标准 化, 生成文献关系标准矩阵; 利用LDA模型进行文 本建模, 生成文献相似矩阵; 将文献相似矩阵和 文献关系标准化矩阵进行线性融合, 形成文本相 似矩阵; 利用社团发现, 得到主题簇, 对 所述主题 簇进行可视化描述, 得到对所述面向领域的文 献 的前沿主题的识别结果。 本发明的方法在同时分 析结构和语义层面有较高的效率, 在关键词消 歧、 人工解读方面有较高的准确度, 克服了以往 单一维度分析文本的弊端, 同时解决了文本相似 度、 融合的问题, 可广泛应用于结构和语义的文 本分析中。 权利要求书2页 说明书11页 附图4页 CN 115017315 A 2022.09.06 CN 115017315 A 1.一种前沿主题 识别方法, 其特 征在于, 包括: 步骤1, 选择面向领域的文献作为数据集, 并将所述数据集进行 预处理; 步骤2, 根据文献共被引关系, 构建引文耦合矩阵并进行标准化, 生成文献关系标准矩 阵; 步骤3, 利用LDA模型进行文本建模, 得到文档的主题概率分布, 并从内容层面计算文献 相似度, 生成文献相似矩阵; 步骤4, 将所述文献相似矩阵和文献关系标准化矩阵进行线性融合, 形成文本相似矩 阵; 步骤5, 利用社团发现, 得到主题簇, 对所述主题簇进行可视化描述, 得到对所述面向领 域的文献的前沿主题的识别结果。 2.根据权利要求1所述的前沿主题识别方法, 其特征在于, 在所述步骤1中, 将所述数据 集进行预处理, 包括: 将文本进行向量 化, 生成文本 ‑特征词矩阵以及文本 ‑引文矩阵。 3.根据权利要求1所述的前沿主题识别方法, 其特征在于, 在所述步骤2中, 根据文献共 被引关系, 构建引文 耦合矩阵并进行 标准化, 生成文献关系标准矩阵, 包括: 根据文献的耦合关系, 计算两篇文献的标准共引度d(x,y): 其中, Nx为文献x的参考文献数量, Ny为文献y的参考文献数量, Nxy为文献x与文献y共同 的参考文献数量。 4.根据权利要求1所述的前沿主题识别方法, 其特征在于, 在所述步骤3中, 利用LDA模 型进行文本 建模, 得到文档的主题概率分布, 并从内容层面计算文献相似度, 生成文献相似 矩阵, 包括: 利用LDA模型进行文本建模, 得到文档 ‑主题、 主题 ‑词分布矩阵, 挖掘出文本潜在的语 义知识; 根据余弦方向计算文献之间的相似度, 生成文献相似矩阵。 5.根据权利要求4所述的前沿主题识别方法, 其特征在于, 根据余弦方向计算文档之间 的相似度, 生成文献相似矩阵, 包括: 基于LDA模型的文献映射的主题向量为di=(t1,t2,……, tK), 两篇文献的相似度计算采 用两个主题向量的余弦值: 其中, di和dj分别表示两篇文献映射的主题向量, Sim(di, dj)是基于LDA模型主题向量的 余弦值测度的两篇文献的相似度。 6.根据权利要求1所述的前沿主题识别方法, 其特征在于, 在步骤4中, 将所述文献关系 标准化矩阵和文献相似矩阵进行线性融合, 形成文本相似矩阵, 包括: 所述线性融合 算法为:权 利 要 求 书 1/2 页 2 CN 115017315 A 2其中, λ为设定的权重; SimLDA表示所述文献相似矩阵中的文献 ‑文献相似值Sim值; citecouple表示所述文献关系标准化矩阵中的标准共引度; cite(i,j)是指任意两个映射文 献的节点i,j是否在基本引用网络中相邻, 若cite(i,j)=0则不相邻, 若cite(i,j)>0则相 邻; a和b为所述文献相似矩阵中的相似度的两个界限值; 遍历数据集, 将融合后的Sim值更新所述文献关系标准化矩阵, 生成所述文本相似矩 阵。 7.根据权利要求6所述的前沿主题 识别方法, 其特 征在于, 对于所述a和b的确定, 包括: 查看基于构建的LDA建模及文献相似矩阵, 按相似度由高到低的顺序排序, 选取 top10%, top10%中最小值即为a; 查看基于构 建的LDA建模及文献相似矩阵, 按相似度由低到高降序排列, 选取top10 %, top10%中最大值即为b。 8.一种前沿主题 识别系统, 其特 征在于, 包括: 预处理模块, 用于 选择面向领域的文献作为数据集, 并将所述数据集进行 预处理; 文献关系矩阵生成模块, 用于根据文献共被引关系, 构建引文耦合矩阵并进行标准化, 生成文献关系标准矩阵; 文献相似矩阵生成模块, 用于利用LDA模型进行文本建模, 得到文档的主题概率分布, 并从内容层面计算文献相似度, 生成文献相似矩阵; 数据融合模块, 用于将所述文献相似矩阵和文献关系标准化矩阵进行线性融合, 形成 文本相似矩阵; 数据分析模块, 用于利用社团发现, 得到主题簇, 并对所述主题簇进行可视化描述, 得 到对所述 面向领域的文献的前沿主题的识别结果。 9.一种计算机设备, 其特征在于, 包括存储器、 处理器及存储在存储器上并可在处理器 上运行的计算机程序, 所述处理器执行所述计算机程序时, 实现如权利要求1至7中任一项 所述的前沿主题 识别方法。 10.一种计算机可读存储介质, 其特征在于, 包括指令, 当所述指令在计算机上运行时, 使得计算机执 行如权利要求1至7中任一项所述的前沿主题 识别方法。权 利 要 求 书 2/2 页 3 CN 115017315 A 3
专利 一种前沿主题识别方法、系统及计算机设备
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助1.5元下载(无需注册)
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助1.5元下载
本文档由 人生无常 于
2024-03-18 14:07:04
上传分享
举报
下载
原文档
(1.2 MB)
分享
友情链接
ISO 19827 2016 Water quality — Determination of the acute toxicity to the freshwater rotifer Brachionus calyciflorus.pdf
ISO 28000 2022 安全和复原力 - 安全管理系统 - 要求.pdf
ISO 1703 2018 Assembly tools for screws and nuts — Nomenclature.pdf
ISO TR 15155-2 2012 Agricultural irrigation equipment — Test facilities for agricultural irrigation equipment — Part 2 Test facility operating manual.pdf
ISO 6699 2016 Cycles — Handlebar centre and stem dimensions.pdf
ISO 10156 2017 Gas cylinders — Gases and gas mixtures — Determination of fire potential and oxidizing ability for the selection of cylinder valve outlets.pdf
ISO 1841-2 1996 Meat and meat products — Determination of chloride content — Part 2 Potentiometric method.pdf
ISO 22555 2022 Ships and marine technology — Propeller pitch indicators.pdf
ISO 23306 2020 Specification of liquefied natural gas as a fuel for marine applications.pdf
ISO 4865-1 2023 Dentistry — General requirements of hand instruments — Part.pdf
GB-T 12737-2008 工业用化工产品中以硫酸根表示的痕量硫化合物测定的通用方法 还原和滴定法.pdf
GB-T 25922-2023 封闭管道中流体流量的测量 用安装在充满流体的圆形截面管道中的涡街流量计测量流量.pdf
GB-T 20178-2022 土方机械 机器安全标签 通则.pdf
GB-T 210.2-2004 工业碳酸钠及其试验方法 第2部分 工业碳酸钠试验方法.pdf
GB-T 19352.4-2003 热喷涂 热喷涂结构的质量要求 第4部分 基本的质量要求.pdf
GB-T 18859-2016 封闭式低压成套开关设备和控制设备 在内部故障引起电弧情况下的试验导则.pdf
GB 11120-2011 涡轮机油.pdf
GB-T 5250-2014 可渗透性烧结金属材料 流体渗透性的测定.pdf
GB-T 7123.1-2015 多组分胶粘剂可操作时间的测定.pdf
GB-T 2820.9-2002 往复式内燃机驱动的交流发电机组 第9部分 机械振动的测量和评价.pdf
1
/
3
18
评价文档
赞助1.5元 点击下载(1.2 MB)
回到顶部
×
微信扫码支付
1.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。