说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210614120.5 (22)申请日 2022.06.01 (71)申请人 西南科技大 学 地址 621000 四川省绵阳市涪城区青龙 大 道中段59号 (72)发明人 杨春明 王意 唐岳川 李波  肖德成  (74)专利代理 机构 成都九鼎天元知识产权代理 有限公司 51214 专利代理师 王会改 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/951(2019.01) G06F 40/247(2020.01) G06F 40/289(2020.01)G06F 40/279(2020.01) G06K 9/62(2022.01) G06F 40/253(2020.01) G06F 40/216(2020.01) G06F 40/242(2020.01) G06F 16/35(2019.01) (54)发明名称 一种关于构建情报中技术知识演化图谱的 方法 (57)摘要 本发明公开了一种关于构建情报中技术知 识演化图谱的方法, 包括: 通过爬虫获取情报数 据, 并将其保存至MongoDB数据库中; 对保存在 MongoDB数据库中的情报数据进行处理; 根据情 报数据处理后得到的技术知识关键词组, 进行文 本同义词统一化处理; 基于统一化处理后的技术 知识关键词组, 对情报数据进行演化关系抽取, 得到技术知识演化三元组; 将所有技术知识演化 三元组构建成技术知识演化图谱。 本发明对情报 中的同义词有效归一, 避免了不同字符的同义词 对演化关系抽取的干扰, 同时优化了知识图谱的 关系结构; 能够更直观更清晰得理解技术知 识关 键词的演化过程, 更全面的掌握技术知识的历史 发展结构。 权利要求书3页 说明书7页 附图1页 CN 115114447 A 2022.09.27 CN 115114447 A 1.一种关于构建情 报中技术知识演化图谱的方法, 其特 征在于, 包括以下步骤: 步骤1: 通过爬虫获取情 报数据, 并将其保存至 MongoDB数据库中; 步骤2: 对保存在Mo ngoDB数据库中的情 报数据进行处 理; 步骤3: 根据情 报数据处 理后得到的技 术知识关键词组, 进行文本同义词统一 化处理; 步骤4: 基于统一化处理后的技术知识关键词组, 对情报数据进行演化关系抽取, 得到 技术知识演化 三元组; 步骤5: 将所有技 术知识演化 三元组构建成技 术知识演化图谱。 2.根据权利要求1所述的方法, 其特 征在于, 所述 步骤1包括: 利用网络爬虫技术从现有公开信息中获取情报文本信息并保存至MongoDB数据库中; 其中, 现有公开信息包括专利、 论文、 技 术要闻。 3.根据权利要求1所述的方法, 其特 征在于, 所述 步骤2包括: 步骤2‑1: 将保存在MongoDB数据库中的情报数据进行翻译和格式化处理, 获取标题和 对应的情 报正文信息; 步骤2‑2: 使用自然语言文本处理库对对步骤2 ‑1中的情报正文内容经行分词、 词性标 注以及实体识别, 再使用中文文本处理模型进行关键词提取得到技术知识关键词, 并将技 术知识关键词、 标题、 情报正文作为字段信息保存至情报数据库中, 每个情报数据对应一组 技术知识关键词、 一个标题以及情报正文; 其中, 技术知识关键词包括领域术语、 自然科学 及科学技术名词、 技 术方法和科 学技术性动词。 4.根据权利要求3所述的方法, 其特 征在于, 所述 步骤3包括: 步骤3‑1: 运用莱文斯坦编辑距离算法, 得到每个技术知识关键词组内之间的编辑距 离, 并使用线性 函数对编辑距离进行归一 化处理; 步骤3‑2: 基于步骤3 ‑1中技术知识关键词的编辑距离计算其相似度分数, 然后根据预 定义的相似度阈值, 将相似度分数大于阈值的技术知识关键词视为同义关键词, 并将同义 关键词进行合并, 以列表的形式重新储 存至情报数据库的技 术知识关键词字段中。 5.根据权利要求3所述的方法, 其特 征在于, 所述 步骤3具体为: 第一步: 抽取情报数据库中每个情报数据的技术知识关键词组, 采用递归方式计算技 术知识关键词两 两之间的莱文斯 坦距离, 即编辑距离; 第二步, 定义指示函数: 当两个技术知识关键词a和b一致时, 停止替换操作; 当字符不 同时, 再进行一次替换操作; 则指示函数I定义为: I(ai≠bj); 其中, ai表示a的第i个字符, bj 表示b的第j个字符; 第三步: 用线性函数对编辑距离进行归一化处理, 基于处理后的编辑距离计算技术知 识关键词之间的相似度; 利用标准的线性归一 化处理公式, 将原 始数据进行等比例缩放; 第四步: 根据预先的对比实验结果, 调整相似度阈值t,t为0 ‑1之间的值; 计算技术知识 关键词组中的两两之 间的相似度得分, 通过与预定义的相似度阈值比较, 进行同义词识别, 如果发现情 报数据库的技 术知识关键词组内存在同义词, 将其 合并成一个列表。 6.根据权利要求5所述的方法, 其特 征在于, 所述莱文斯 坦距离为: leva,b(|a|,|b|); 其中, 对于技 术知识关键词a和b, 分别用|a|和|b|代 表其的长度; 进一步,权 利 要 求 书 1/3 页 2 CN 115114447 A 2其中, leva, b(i, j)表示若技术知识关键词a或b 有一个是空串, 则距离为非空串的长度; 否则, 进入min运算; leva, b(i‑1, j)+1表示从a中删除一个字符的操作, leva, b(i, j‑1)+1表示 往a中添加一个字符的操作, 表示字符替换的操作, ai表示a 的第i个字符, bj表示b的第j个字符。 7.根据权利要求5所述的方法, 其特 征在于, 所述标准的线性归一 化处理公式为: 其中, x为原始数据, xmin为数据集最小值, xmax为数据集最大值, xnorm为原始数据归一化 后的结果; 将标准的线性归一 化处理公式进行简化处 理: 其中, cost为a, b间的编辑距离; maxSize(word)为a, b中较长词的字符长度; 对于两个 技术知识关键词, 编辑距离越大, 代 表越不相似; 基于编辑距离 定义相似度分数公式为: 其中, score为相似度分数。 8.根据权利要求1所述的方法, 其特 征在于, 所述 步骤4包括: 步骤4‑1: 分析情报数据中具有演化关系的语法结构, 整理演化关系特征词集, 构建演 化关系模式集; 步骤4‑2: 经过整理训练数据、 组织人工标注、 制定特征模板后, 再利用条件随机场序列 标注的方法对 模型进行训练, 得到演化关系分类模型; 步骤4‑3: 抽取情报数据库中的情报正文, 利用演化关系分类模型, 逐句进行技术知识 演化关系识别, 从而实现对情 报正文中具有演化关系的技 术知识三元组的抽取。 9.根据权利要求1所述的方法, 其特 征在于, 所述 步骤4具体包括: 对情报信息进行统计分析, 整理情报正文语句中具有演化关系导向性的动词和名词, 视为特征词, 组合 成特征词词典; 使用自然语言文本处理库对步骤2 ‑1中的情报正文进 行分 词、 词性标注; 然后 构建演化关系模式集; 演化关系模式中前实体和 后实体均为情报中的技 术知识关键词; 停用词为与内容无关的连接词; 特 征词为特 征词词典里的词; 利用CRF条件 随机场的思想, 将 d1: N作为一个显性序列, h1: N作为一个隐性状态序列, 构 建条件概 率模型P(h|d); 条件概 率模型P(h|d)定义 为: 权 利 要 求 书 2/3 页 3 CN 115114447 A 3

.PDF文档 专利 一种关于构建情报中技术知识演化图谱的方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种关于构建情报中技术知识演化图谱的方法 第 1 页 专利 一种关于构建情报中技术知识演化图谱的方法 第 2 页 专利 一种关于构建情报中技术知识演化图谱的方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:52:18上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。