说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210702752.7 (22)申请日 2022.06.21 (71)申请人 新疆大学 地址 830000 新疆维吾尔自治区乌鲁 木齐 市新疆大学北校区西院24号楼3单元 702 (72)发明人 于清 谌业林 吾守尔·斯拉木  程煜晴 周煜辉  (74)专利代理 机构 北京高沃 律师事务所 1 1569 专利代理师 刘芳 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/35(2019.01) G06F 40/30(2020.01) G06N 3/08(2006.01)G06N 5/04(2006.01) G16H 50/70(2018.01) (54)发明名称 一种基于代谢病的事理知识图谱的构建方 法及系统 (57)摘要 本发明涉及一种基于代谢病的事理知识图 谱获取方法及系统, 首先获取代谢病相关数据, 识别出代谢病相关数据文本中的触发词及其对 应的事件类型, 然后针对每个事件触发词及事件 类型构建对应的问题, 将问题与上下文拼接后输 入模型以抽取事件其他组成部分, 获得完整事件 表述, 然后判断各完整事件之间的关系, 最后根 据所抽取的信息构建代谢病事理知识图谱。 本申 请上述方法充分利用临床信息构建知识图谱, 构 建更加完善的代谢病知 识图谱, 可以帮助科研工 作者或医疗从业人员 快捷方便的查询相关的知 识, 辅助临床医生做科学决策, 另 一方面也可 以 为代谢病相关的各种智能服 务提供数据支撑 。 权利要求书4页 说明书10页 附图5页 CN 115062162 A 2022.09.16 CN 115062162 A 1.一种基于代谢病的事理知识图谱获取 方法, 其特 征在于, 包括: 获取代谢病相关数据, 所述代谢病相关数据包括结构化数据和非结构化数据; 利用序列标注模型对所述非结构化数据中每一事 件的触发词和事 件类型进行抽取; 根据抽取的每一所述触发词以及对应事件类型, 生成关于事件参数角色的问题, 根据 所述问题, 利用基于MRC的模型获得所述事件参数; 所述事件参数为所述触发词对应事件的 事件参数; 根据每一事件的所述触发词、 所述事件类型、 所述事件参数角色、 以及所述事件参数得 到事件的完整表述, 记为第一完整事 件; 根据多个所述第 一完整事件, 利用事件关系分类模型获得多个所述第 一完整事件之间 的关系, 将多个所述第一完整事件根据事件之间的关系进行关联, 得到第一级代谢病事理 知识图谱; 将所述结构化数据利用正则表达 式进行抽取, 得到所述结构化数据中每一事件的完整 表述, 记为第二完整事件, 将多个所述第二完整事件进 行关联, 得到第二级代谢病事理知识 图谱; 根据所述第一级代谢病事理知识图谱和所述第二级代谢病事理知识图谱获得初级代 谢病事理知识图谱; 将所述初级代谢病事理知识图谱融入第 三方数据库的知识, 获得最终的代谢病 事理知 识图谱, 所述第三方 数据库包括相关医疗知识图谱和知识库。 2.根据权利要求1所述的方法, 其特征在于, 所述利用序列 标注模型对所述非结构化数 据中每一事 件的触发词和事 件类型进行抽取, 具体包括: 从所述非结构化数据中选取部分数据作为训练集, 针对所述训练集中的每一事件文本 进行标注, 得到标注好的训练集; 所述标注的内容包括事件的触发词、 事件类型、 事件参数 角色、 事件参数以及事 件之间的关系; 利用所述标注好的训练集对所述序列标注模型进行训练, 得到训练好的序列标注模 型, 其中, 训练过程中以事 件文本作为输入, 以触发词和事 件类型作为输出; 将所述非结构化数据中除部分数据外的剩余数据输入到所述训练好的序列标注模型 进行事件检测, 得到所述剩余数据中每一事 件的触发词和事 件类型。 3.根据权利要求2所述的方法, 其特征在于, 所述根据抽取的每一所述触发词对应的事 件类型, 生成关于事件参数角色的问题, 根据所述问题, 利用基于MRC的模型获得所述事件 参数, 具体包括: 利用所述标注好的训练集对基于MRC的模型进行训练, 得到训练好的基于MRC的模型; 其中基于MRC的模型训练过程中以事件文本和关于事件参数角色的问题作为输入, 以事件 参数作为输出, 所述关于事 件参数角色的问题通过事 件触发词对应的事 件类型获得; 根据抽取的每一所述触发词对应的事件类型, 生成关于事件参数角色的问题, 将所述 问题以及事 件上下文文本输入所述训练好的基于 MRC的模型, 得到事 件参数。 4.根据权利要求1所述的方法, 其特征在于, 所述将所述初级代谢病事理知识图谱融入 第三方数据库知识, 获得最终的代谢病事理知识图谱, 具体包括: 从所述第 三方数据库中获取与 所述代谢病相关数据中实体m同类的实体集合S, 并计算 所述m与所述S中所有实体的字符特征相似度, 选取相似度最高的前k个实体作为m的候选实权 利 要 求 书 1/4 页 2 CN 115062162 A 2体; 采用分层比例的抽 样方法从所述候选实体中选取部分实体数据; 对所述部分实体数据 之间的关系进行 标注, 得到标注数据; 所述关系包括同义关系和上 下位关系; 利用所述标注数据训练基于深度神经网络的语义关系分类模型, 得到最优语义关系分 类模型, 所述语义关系分类模型训练过程中 以所述标注数据为输入, 以实体之间的关系为 输出; 将剩余实体数据输入所述最优语义关系分类模型中, 得到所述剩余实体数据之间的关 系; 所述剩余实体数据为所述 候选实体中除所述部分实体数据之外的数据; 根据所述剩余实体数据之间的关系对所述剩余实体数据进行匹配, 获得整理后的数 据; 利用所述整理后的数据扩充所述初级代谢病 事理知识图谱, 获得最终的代谢病 事理知 识图谱。 5.根据权利要求1所述的方法, 其特征在于, 所述获取代谢病相关数据之前, 所述方法 还包括构建代谢病本体的初始模型: 归纳代谢病领域的概念, 对所述概念进行分类, 获得概念类型; 所述概念类型包括病 因、 症状、 诊断和治疗; 确定各所述概念类型之间的关系; 定义各所述概念类型中包 含数据的属性, 得到代谢病本体的初始模型; 所述最终的代谢病事理知识图谱是在所述代谢病本体的初始模型 上进行构建的。 6.一种基于代谢病的事理知识图谱获取系统, 其特 征在于, 包括: 代谢病相关数据获取模块, 用于获取代谢病相关数据, 所述代谢病相关数据包括结构 化数据和非结构化数据; 触发词和事件类型抽取模块, 用于利用序列 标注模型对所述非结构化数据中每一事件 的触发词和事 件类型进行抽取; 事件参数获取模块, 用于根据抽取的每一所述触发词对应的事件类型, 生成关于事件 参数角色的问题, 根据所述问题, 利用基于MRC的模型获得所述事件参数; 所述事件参数为 所述触发词对应事 件的事件参数; 第一完整事件获取模块, 用于根据每一事件的所述触发词、 所述事件类型、 所述事件参 数角色以及所述事 件参数得到事件的完整表述, 记为第一完整事 件; 第一级代谢病事理知识图谱构建模块, 用于根据多个所述第一完整事件, 利用事件关 系分类模型获得多个所述第一完整事件之 间的关系, 将多个所述第一完整事件根据事件之 间的关系进行关联, 得到第一级代谢病事理知识图谱; 第二级代谢病 事理知识图谱构建模块, 用于将所述结构化数据利用正则表达式进行抽 取, 得到所述结构化数据中每一事件的完整表述, 记为第二完整事件, 将多个所述第二完整 事件进行关联, 得到第二级代谢病事理知识图谱; 初级代谢病事理知识图谱构建模块, 用于根据所述第 一级代谢病 事理知识图谱和所述 第二级代谢病事理知识图谱获得初级代谢病事理知识图谱; 最终代谢病事理知识图谱构建模块, 用于将所述初级代谢病事理知识图谱融入第 三方 数据库的知识, 获得最终代谢病事理知识图谱, 所述第三方数据库包括相关医疗知识图谱权 利 要 求 书 2/4 页 3 CN 115062162 A 3

.PDF文档 专利 一种基于代谢病的事理知识图谱的构建方法及系统

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于代谢病的事理知识图谱的构建方法及系统 第 1 页 专利 一种基于代谢病的事理知识图谱的构建方法及系统 第 2 页 专利 一种基于代谢病的事理知识图谱的构建方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:52:47上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。