专利一种关于构建情报中技术知识演化图谱的方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210614120.5 (22)申请日 2022.06.01 (71)申请人西南科技大学地址 621000 四川省绵阳市涪城区青龙大道中段59号 (72)发明人杨春明　王意　唐岳川　李波　肖德成　 (74)专利代理机构成都九鼎天元知识产权代理有限公司 51214 专利代理师王会改 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/951(2019.01) G06F 40/247(2020.01) G06F 40/289(2020.01)G06F 40/279(2020.01) G06K 9/62(2022.01) G06F 40/253(2020.01) G06F 40/216(2020.01) G06F 40/242(2020.01) G06F 16/35(2019.01) (54)发明名称一种关于构建情报中技术知识演化图谱的方法 (57)摘要本发明公开了一种关于构建情报中技术知识演化图谱的方法，包括：通过爬虫获取情报数据，并将其保存至MongoDB数据库中；对保存在 MongoDB数据库中的情报数据进行处理；根据情报数据处理后得到的技术知识关键词组，进行文本同义词统一化处理；基于统一化处理后的技术知识关键词组，对情报数据进行演化关系抽取，得到技术知识演化三元组；将所有技术知识演化三元组构建成技术知识演化图谱。本发明对情报中的同义词有效归一，避免了不同字符的同义词对演化关系抽取的干扰，同时优化了知识图谱的关系结构；能够更直观更清晰得理解技术知识关键词的演化过程，更全面的掌握技术知识的历史发展结构。权利要求书3页说明书7页附图1页 CN 115114447 A 2022.09.27 CN 115114447 A 1.一种关于构建情报中技术知识演化图谱的方法，其特征在于，包括以下步骤：步骤1：通过爬虫获取情报数据，并将其保存至 MongoDB数据库中；步骤2：对保存在Mo ngoDB数据库中的情报数据进行处理；步骤3：根据情报数据处理后得到的技术知识关键词组，进行文本同义词统一化处理；步骤4：基于统一化处理后的技术知识关键词组，对情报数据进行演化关系抽取，得到技术知识演化三元组；步骤5：将所有技术知识演化三元组构建成技术知识演化图谱。 2.根据权利要求1所述的方法，其特征在于，所述步骤1包括：利用网络爬虫技术从现有公开信息中获取情报文本信息并保存至MongoDB数据库中；其中，现有公开信息包括专利、论文、技术要闻。 3.根据权利要求1所述的方法，其特征在于，所述步骤2包括：步骤2‑1：将保存在MongoDB数据库中的情报数据进行翻译和格式化处理，获取标题和对应的情报正文信息；步骤2‑2：使用自然语言文本处理库对对步骤2 ‑1中的情报正文内容经行分词、词性标注以及实体识别，再使用中文文本处理模型进行关键词提取得到技术知识关键词，并将技术知识关键词、标题、情报正文作为字段信息保存至情报数据库中，每个情报数据对应一组技术知识关键词、一个标题以及情报正文；其中，技术知识关键词包括领域术语、自然科学及科学技术名词、技术方法和科学技术性动词。 4.根据权利要求3所述的方法，其特征在于，所述步骤3包括：步骤3‑1：运用莱文斯坦编辑距离算法，得到每个技术知识关键词组内之间的编辑距离，并使用线性函数对编辑距离进行归一化处理；步骤3‑2：基于步骤3 ‑1中技术知识关键词的编辑距离计算其相似度分数，然后根据预定义的相似度阈值，将相似度分数大于阈值的技术知识关键词视为同义关键词，并将同义关键词进行合并，以列表的形式重新储存至情报数据库的技术知识关键词字段中。 5.根据权利要求3所述的方法，其特征在于，所述步骤3具体为：第一步：抽取情报数据库中每个情报数据的技术知识关键词组，采用递归方式计算技术知识关键词两两之间的莱文斯坦距离，即编辑距离；第二步，定义指示函数：当两个技术知识关键词a和b一致时，停止替换操作；当字符不同时，再进行一次替换操作；则指示函数I定义为： I(ai≠bj)；其中， ai表示a的第i个字符， bj 表示b的第j个字符；第三步：用线性函数对编辑距离进行归一化处理，基于处理后的编辑距离计算技术知识关键词之间的相似度；利用标准的线性归一化处理公式，将原始数据进行等比例缩放；第四步：根据预先的对比实验结果，调整相似度阈值t,t为0 ‑1之间的值；计算技术知识关键词组中的两两之间的相似度得分，通过与预定义的相似度阈值比较，进行同义词识别，如果发现情报数据库的技术知识关键词组内存在同义词，将其合并成一个列表。 6.根据权利要求5所述的方法，其特征在于，所述莱文斯坦距离为： leva,b(|a|,|b|)；其中，对于技术知识关键词a和b，分别用|a|和|b|代表其的长度；进一步，权　利　要　求　书 1/3 页 2 CN 115114447 A 2其中， leva， b(i， j)表示若技术知识关键词a或b 有一个是空串，则距离为非空串的长度；否则，进入min运算； leva， b(i‑1， j)+1表示从a中删除一个字符的操作， leva， b(i， j‑1)+1表示往a中添加一个字符的操作，表示字符替换的操作， ai表示a 的第i个字符， bj表示b的第j个字符。 7.根据权利要求5所述的方法，其特征在于，所述标准的线性归一化处理公式为：其中， x为原始数据， xmin为数据集最小值， xmax为数据集最大值， xnorm为原始数据归一化后的结果；将标准的线性归一化处理公式进行简化处理：其中， cost为a， b间的编辑距离； maxSize(word)为a， b中较长词的字符长度；对于两个技术知识关键词，编辑距离越大，代表越不相似；基于编辑距离定义相似度分数公式为：其中， score为相似度分数。 8.根据权利要求1所述的方法，其特征在于，所述步骤4包括：步骤4‑1：分析情报数据中具有演化关系的语法结构，整理演化关系特征词集，构建演化关系模式集；步骤4‑2：经过整理训练数据、组织人工标注、制定特征模板后，再利用条件随机场序列标注的方法对模型进行训练，得到演化关系分类模型；步骤4‑3：抽取情报数据库中的情报正文，利用演化关系分类模型，逐句进行技术知识演化关系识别，从而实现对情报正文中具有演化关系的技术知识三元组的抽取。 9.根据权利要求1所述的方法，其特征在于，所述步骤4具体包括：对情报信息进行统计分析，整理情报正文语句中具有演化关系导向性的动词和名词，视为特征词，组合成特征词词典；使用自然语言文本处理库对步骤2 ‑1中的情报正文进行分词、词性标注；然后构建演化关系模式集；演化关系模式中前实体和后实体均为情报中的技术知识关键词；停用词为与内容无关的连接词；特征词为特征词词典里的词；利用CRF条件随机场的思想，将 d1： N作为一个显性序列， h1： N作为一个隐性状态序列，构建条件概率模型P(h|d)；条件概率模型P(h|d)定义为：权　利　要　求　书 2/3 页 3 CN 115114447 A 3

专利 一种关于构建情报中技术知识演化图谱的方法

专利一种关于构建情报中技术知识演化图谱的方法