专利一种科技档案知识图谱构建方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210069357.X (22)申请日 2022.01.21 (71)申请人中国电子科技集团公司第十研究所地址 610000 四川省成都市金牛区茶店子东街48号 (72)发明人孙肖　何祺　朱烨　李可　林玲　刘天华　李峥　王俊林　 (74)专利代理机构成都九鼎天元知识产权代理有限公司 51214 代理人孙元伟 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/28(2019.01) (54)发明名称一种科技档案知识图谱构建方法及系统 (57)摘要本发明涉及知识图谱构建技术领域，公开了一种科技档案知识图谱构建方法及系统，该科技档案知识图谱构建方法，包括以下步骤： S1，选取样本档案文件； S2，转换样本文本格式； S3，生成实体关系数据文件； S4，构建实体关系抽取模型； S5，形成实体关系数据集； S6，构建知识图谱。本发明解决了现有技术存在的检索过程繁琐、检索效率低、档案利用率低等问题。权利要求书2页说明书5页附图2页 CN 114398498 A 2022.04.26 CN 114398498 A 1.一种科技档案知识图谱构建方法，其特征在于，包括以下步骤： S1，选取样本档案文件：构建所属科技领域知识词库并选取样本档案文件； S2，转换样本文本格式：将选取的样本档案文件的全文内容提取并转换为普通文本； S3，生成实体关系数据文件：对样本全文文本进行实体、关系的标注和抽取，生成实体关系数据文件； S4，构建实体关系抽取模型：引入深度学习引擎对样本全文文本及其实体关系数据文件执行训练和测试，生成并优化实体关系抽取模型； S5，形成实体关系数据集：基于实体关系抽取模型对增量的科技档案文档进行自动化抽取，形成实体关系数据集，并存储到专业图数据库中； S6，构建知识图谱：使用专业图数据库提供的查询功能进行实体关系融合查询并构建出知识图谱。 2.根据权利要求1所述的一种科技档案知识图谱构建方法，其特征在于，步骤S2中，使用PaddleOCR开源框架将选取的样本档案文件的全文内容提取并转换为普通文本。 3.根据权利要求2所述的一种科技档案知识图谱构建方法，其特征在于，步骤S2包括以下步骤： S21，设定文本识别数据集为icdar2015数据集； S22，在configs/rec /rec_icdar15_t rain.yml文件中加载知识词库数据文件； S23，设置文本识别方式； S24，在命令行中运行主程序并将完成识别后的文本保存为txt扩展名的普通文本格式。 4.根据权利要求3所述的一种科技档案知识图谱构建方法，其特征在于，步骤S23 中，采用以下设置方式的一种或多种设置文本识别方式：将识别脚本设置为基于CRNN模型的预识别脚本；将use_gpu参数设置为t rue；将数据增强方式设置为t rue；设置扰动方式。 5.根据权利要求1至4任一项所述的一种科技档案知识图谱构建方法，其特征在于，步骤S3中，采用brat文本标注工具对样本全文文本进行实体、关系的标注和抽取。 6.根据权利要求5所述的一种科技档案知识图谱构建方法，其特征在于，步骤S3包括以下步骤： S31，配置brat工具运行环境； S32，在an notation.conf配置文件中加载知识词库中定义的名词的分类名称； S33，在visual.co nf配置文件中为每一项分类名称定义标注颜色； S34，采用浏览器访问brat项目界面，打开待标注的.txt样本文本文件，进行人工标注作业； S35，完成标注后，将自动生成的.an n标注数据文件进行保存。 7.根据权利要求6所述的一种科技档案知识图谱构建方法，其特征在于，步骤S4包括以下步骤： S41，将.ann标注数据文件和.txt样本文本文件使用python编程转为bert模型需要的数据格式，保存到datas目录下； S42，设置ber t模型的预训练模型c hinese_L‑12_H‑768_A‑12，保存到models目录下； S43，创建pytho n虚拟环境并安装tensorfl ow‑gpu模块；权　利　要　求　书 1/2 页 2 CN 114398498 A 2S44，启动命令行进行训练，将训练生成的模型文件配置到checkpoint文件中，执行命令进行测试，人工对比评估结果； S45，根据评估结果对模型进行优化。 8.根据权利要求7所述的一种科技档案知识图谱构建方法，其特征在于，步骤S5包括以下步骤： S51，使用PaddleOCR将大量科技档案文件执行全文提取并用程序转换后，保存到datas 目录下； S52，使用pytho n语言编写实体关系抽取调用程序，载入已完成训练的ber t模型； S53，在主程序中编写代码将模型抽取的数据转换为三元组数据结构，连接Neo4j数据库并保存三元组数据。 9.根据权利要求8所述的一种科技档案知识图谱构建方法，其特征在于，步骤S6包括以下步骤： S61，使用cypher语句的MATC H命令从Neo 4j数据库读取实体； S62， CREATE命令创建实体与实体间的关系； S63，使用MATCH RETURN语句融合实体后返回知识图谱数据，在数据视图平台中进行加载展示。 10.一种科技档案知识图谱构建系统，其特征在于，基于权利要求1至9任一项所述的一种科技档案知识图谱构建方法，包括依次电相连的以下模块：选取样本档案文件模块：用以，构建所属科技领域知识词库并选取样本档案文件；转换样本文本格式模块：用以，将选取的样本档案文件的全文内容提取并转换为普通文本；生成实体关系数据文件模块：用以，对样本全文文本进行实体、关系的标注和抽取，生成实体关系数据文件；构建实体关系抽取模型模块：用以，引入深度学习引擎对样本全文文本及其实体关系数据文件执行训练和测试，生成并优化实体关系抽取模型；形成实体关系数据集模块：用以，基于实体关系抽取模型对增量的科技档案文档进行自动化抽取，形成实体关系数据集，并存储到专业图数据库中；构建知识图谱模块：用以，使用专业图数据库提供的查询功能进行实体关系融合查询并构建出知识图谱。权　利　要　求　书 2/2 页 3 CN 114398498 A 3

专利 一种科技档案知识图谱构建方法及系统

专利一种科技档案知识图谱构建方法及系统