说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210069357.X (22)申请日 2022.01.21 (71)申请人 中国电子科技 集团公司第十 研究所 地址 610000 四川省成 都市金牛区茶店子 东街48号 (72)发明人 孙肖 何祺 朱烨 李可 林玲  刘天华 李峥 王俊林  (74)专利代理 机构 成都九鼎天元知识产权代理 有限公司 51214 代理人 孙元伟 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/28(2019.01) (54)发明名称 一种科技档案知识图谱构建方法及系统 (57)摘要 本发明涉及知识图谱构建技术领域, 公开了 一种科技档案知识图谱构建方法及系统, 该科技 档案知识图谱构建方法, 包括以下步骤: S1, 选 取 样本档案文件; S2, 转换样本文本格式; S3, 生成 实体关系数据文件; S4, 构建实体关系抽取模型; S5, 形成实体关系数据集; S6, 构建知识图谱。 本 发明解决了现有技术存在的检索过程繁琐、 检索 效率低、 档案利用率低等问题。 权利要求书2页 说明书5页 附图2页 CN 114398498 A 2022.04.26 CN 114398498 A 1.一种科技档案知识图谱构建方法, 其特 征在于, 包括以下步骤: S1, 选取样本档案文件: 构建所属科技领域知识词库并选取样本档案文件; S2, 转换样本文本格式: 将选取的样本档案文件的全文内容 提取并转换为普通文本; S3, 生成实体关系数据文件: 对样本全文文本进行实体、 关系的标注和抽取, 生成实体 关系数据文件; S4, 构建实体关系抽取模型: 引入深度学习引擎对样本全文文本及其实体关系数据文 件执行训练和 测试, 生成并优化实体关系抽取模型; S5, 形成实体关系数据集: 基于实体关系抽取模型对增量的科技档案文档进行自动化 抽取, 形成实体关系数据集, 并存 储到专业图数据库中; S6, 构建知识图谱: 使用专业图数据库提供的查询功能进行实体关系融合查询并构建 出知识图谱。 2.根据权利要求1所述的一种科技档案知识图谱构建方法, 其特征在于, 步骤S2中, 使 用PaddleOCR开源框架将选取的样本档案文件的全文内容 提取并转换为普通文本 。 3.根据权利要求2所述的一种科技档案知识图谱构建方法, 其特征在于, 步骤S2包括以 下步骤: S21, 设定文本识别数据集 为icdar2015数据集; S22, 在configs/rec /rec_icdar15_t rain.yml文件中加载知识词库数据文件; S23, 设置文本识别方式; S24, 在命令行中运行主程序并将完成识别后的文本保存为txt扩展名的普通文本格 式。 4.根据权利要求3所述的一种科技档案知识图谱构建方法, 其特征在于, 步骤S23 中, 采 用以下设置方式的一种或多种设置文本识别方式: 将识别脚本 设置为基于CRNN模 型的预识 别脚本; 将use_gpu参数设置为t rue; 将数据增强方式设置为t rue; 设置扰动方式。 5.根据权利要求1至4任一项所述的一种科技档案知识图谱构建方法, 其特征在于, 步 骤S3中, 采用brat文本标注工具对样本全文 文本进行实体、 关系的标注和抽取。 6.根据权利要求5所述的一种科技档案知识图谱构建方法, 其特征在于, 步骤S3包括以 下步骤: S31, 配置brat工具运行环境; S32, 在an notation.conf配置文件中加载知识词库中定义的名词的分类名称; S33, 在visual.co nf配置文件中为每一项分类名称定义标注颜色; S34, 采用浏览器访问brat项 目界面, 打开待标注的.txt样本文本文件, 进行人工标注 作业; S35, 完成标注后, 将自动生成的.an n标注数据文件进行保存。 7.根据权利要求6所述的一种科技档案知识图谱构建方法, 其特征在于, 步骤S4包括以 下步骤: S41, 将.ann标注数据文件和.txt样本文本文件使用python编程转为bert模型需要的 数据格式, 保存到datas目录下; S42, 设置ber t模型的预训练模型c hinese_L‑12_H‑768_A‑12, 保存到models目录下; S43, 创建pytho n虚拟环境并安装tensorfl ow‑gpu模块;权 利 要 求 书 1/2 页 2 CN 114398498 A 2S44, 启动命令行进行训练, 将训练生成的模型文件配置到checkpoint文件中, 执行命 令进行测试, 人工对比评估结果; S45, 根据评估结果对 模型进行优化。 8.根据权利要求7所述的一种科技档案知识图谱构建方法, 其特征在于, 步骤S5包括以 下步骤: S51, 使用PaddleOCR将大量科技档案文件执行全文提取并用程序 转换后, 保存到datas 目录下; S52, 使用pytho n语言编写实体关系抽取调用程序, 载入已完成训练的ber t模型; S53, 在主程序中编写代码将模型抽取的数据转换为三元组数据结构, 连接Neo4j数据 库并保存三元组数据。 9.根据权利要求8所述的一种科技档案知识图谱构建方法, 其特征在于, 步骤S6包括以 下步骤: S61, 使用cypher语句的MATC H命令从Neo 4j数据库读取实体; S62, CREATE命令创建实体与实体间的关系; S63, 使用MATCH  RETURN语句融合实体后返回知识图谱数据, 在 数据视图平台中进行加 载展示。 10.一种科技档案知识图谱构建系统, 其特征在于, 基于权利要求1至9任一项所述的一 种科技档案知识图谱构建方法, 包括依次电相连的以下模块: 选取样本档案文件 模块: 用以, 构建所属科技领域知识词库并选取样本档案文件; 转换样本文本格式模块: 用以, 将选取的样本档案文件的全文内容提取并转换为普通 文本; 生成实体关系数据文件模块: 用以, 对样本全文文本进行实体、 关系的标注和抽取, 生 成实体关系数据文件; 构建实体关系抽取模型模块: 用以, 引入深度学习引擎对样本全文文本及其实体关系 数据文件执 行训练和 测试, 生成并优化实体关系抽取模型; 形成实体关系数据集模块: 用以, 基于实体关系抽取模型对增量的科技档案文档进行 自动化抽取, 形成实体关系数据集, 并存 储到专业图数据库中; 构建知识图谱模块: 用以, 使用专业图数据库提供的查询功能进行实体关系融合查询 并构建出知识图谱。权 利 要 求 书 2/2 页 3 CN 114398498 A 3

.PDF文档 专利 一种科技档案知识图谱构建方法及系统

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种科技档案知识图谱构建方法及系统 第 1 页 专利 一种科技档案知识图谱构建方法及系统 第 2 页 专利 一种科技档案知识图谱构建方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:54:52上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。