专利一种基于代谢病的事理知识图谱的构建方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210702752.7 (22)申请日 2022.06.21 (71)申请人新疆大学地址 830000 新疆维吾尔自治区乌鲁木齐市新疆大学北校区西院24号楼3单元 702 (72)发明人于清　谌业林　吾守尔·斯拉木　程煜晴　周煜辉　 (74)专利代理机构北京高沃律师事务所 1 1569 专利代理师刘芳 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/35(2019.01) G06F 40/30(2020.01) G06N 3/08(2006.01)G06N 5/04(2006.01) G16H 50/70(2018.01) (54)发明名称一种基于代谢病的事理知识图谱的构建方法及系统 (57)摘要本发明涉及一种基于代谢病的事理知识图谱获取方法及系统，首先获取代谢病相关数据，识别出代谢病相关数据文本中的触发词及其对应的事件类型，然后针对每个事件触发词及事件类型构建对应的问题，将问题与上下文拼接后输入模型以抽取事件其他组成部分，获得完整事件表述，然后判断各完整事件之间的关系，最后根据所抽取的信息构建代谢病事理知识图谱。本申请上述方法充分利用临床信息构建知识图谱，构建更加完善的代谢病知识图谱，可以帮助科研工作者或医疗从业人员快捷方便的查询相关的知识，辅助临床医生做科学决策，另一方面也可以为代谢病相关的各种智能服务提供数据支撑。权利要求书4页说明书10页附图5页 CN 115062162 A 2022.09.16 CN 115062162 A 1.一种基于代谢病的事理知识图谱获取方法，其特征在于，包括：获取代谢病相关数据，所述代谢病相关数据包括结构化数据和非结构化数据；利用序列标注模型对所述非结构化数据中每一事件的触发词和事件类型进行抽取；根据抽取的每一所述触发词以及对应事件类型，生成关于事件参数角色的问题，根据所述问题，利用基于MRC的模型获得所述事件参数；所述事件参数为所述触发词对应事件的事件参数；根据每一事件的所述触发词、所述事件类型、所述事件参数角色、以及所述事件参数得到事件的完整表述，记为第一完整事件；根据多个所述第一完整事件，利用事件关系分类模型获得多个所述第一完整事件之间的关系，将多个所述第一完整事件根据事件之间的关系进行关联，得到第一级代谢病事理知识图谱；将所述结构化数据利用正则表达式进行抽取，得到所述结构化数据中每一事件的完整表述，记为第二完整事件，将多个所述第二完整事件进行关联，得到第二级代谢病事理知识图谱；根据所述第一级代谢病事理知识图谱和所述第二级代谢病事理知识图谱获得初级代谢病事理知识图谱；将所述初级代谢病事理知识图谱融入第三方数据库的知识，获得最终的代谢病事理知识图谱，所述第三方数据库包括相关医疗知识图谱和知识库。 2.根据权利要求1所述的方法，其特征在于，所述利用序列标注模型对所述非结构化数据中每一事件的触发词和事件类型进行抽取，具体包括：从所述非结构化数据中选取部分数据作为训练集，针对所述训练集中的每一事件文本进行标注，得到标注好的训练集；所述标注的内容包括事件的触发词、事件类型、事件参数角色、事件参数以及事件之间的关系；利用所述标注好的训练集对所述序列标注模型进行训练，得到训练好的序列标注模型，其中，训练过程中以事件文本作为输入，以触发词和事件类型作为输出；将所述非结构化数据中除部分数据外的剩余数据输入到所述训练好的序列标注模型进行事件检测，得到所述剩余数据中每一事件的触发词和事件类型。 3.根据权利要求2所述的方法，其特征在于，所述根据抽取的每一所述触发词对应的事件类型，生成关于事件参数角色的问题，根据所述问题，利用基于MRC的模型获得所述事件参数，具体包括：利用所述标注好的训练集对基于MRC的模型进行训练，得到训练好的基于MRC的模型；其中基于MRC的模型训练过程中以事件文本和关于事件参数角色的问题作为输入，以事件参数作为输出，所述关于事件参数角色的问题通过事件触发词对应的事件类型获得；根据抽取的每一所述触发词对应的事件类型，生成关于事件参数角色的问题，将所述问题以及事件上下文文本输入所述训练好的基于 MRC的模型，得到事件参数。 4.根据权利要求1所述的方法，其特征在于，所述将所述初级代谢病事理知识图谱融入第三方数据库知识，获得最终的代谢病事理知识图谱，具体包括：从所述第三方数据库中获取与所述代谢病相关数据中实体m同类的实体集合S，并计算所述m与所述S中所有实体的字符特征相似度，选取相似度最高的前k个实体作为m的候选实权　利　要　求　书 1/4 页 2 CN 115062162 A 2体；采用分层比例的抽样方法从所述候选实体中选取部分实体数据；对所述部分实体数据之间的关系进行标注，得到标注数据；所述关系包括同义关系和上下位关系；利用所述标注数据训练基于深度神经网络的语义关系分类模型，得到最优语义关系分类模型，所述语义关系分类模型训练过程中以所述标注数据为输入，以实体之间的关系为输出；将剩余实体数据输入所述最优语义关系分类模型中，得到所述剩余实体数据之间的关系；所述剩余实体数据为所述候选实体中除所述部分实体数据之外的数据；根据所述剩余实体数据之间的关系对所述剩余实体数据进行匹配，获得整理后的数据；利用所述整理后的数据扩充所述初级代谢病事理知识图谱，获得最终的代谢病事理知识图谱。 5.根据权利要求1所述的方法，其特征在于，所述获取代谢病相关数据之前，所述方法还包括构建代谢病本体的初始模型：归纳代谢病领域的概念，对所述概念进行分类，获得概念类型；所述概念类型包括病因、症状、诊断和治疗；确定各所述概念类型之间的关系；定义各所述概念类型中包含数据的属性，得到代谢病本体的初始模型；所述最终的代谢病事理知识图谱是在所述代谢病本体的初始模型上进行构建的。 6.一种基于代谢病的事理知识图谱获取系统，其特征在于，包括：代谢病相关数据获取模块，用于获取代谢病相关数据，所述代谢病相关数据包括结构化数据和非结构化数据；触发词和事件类型抽取模块，用于利用序列标注模型对所述非结构化数据中每一事件的触发词和事件类型进行抽取；事件参数获取模块，用于根据抽取的每一所述触发词对应的事件类型，生成关于事件参数角色的问题，根据所述问题，利用基于MRC的模型获得所述事件参数；所述事件参数为所述触发词对应事件的事件参数；第一完整事件获取模块，用于根据每一事件的所述触发词、所述事件类型、所述事件参数角色以及所述事件参数得到事件的完整表述，记为第一完整事件；第一级代谢病事理知识图谱构建模块，用于根据多个所述第一完整事件，利用事件关系分类模型获得多个所述第一完整事件之间的关系，将多个所述第一完整事件根据事件之间的关系进行关联，得到第一级代谢病事理知识图谱；第二级代谢病事理知识图谱构建模块，用于将所述结构化数据利用正则表达式进行抽取，得到所述结构化数据中每一事件的完整表述，记为第二完整事件，将多个所述第二完整事件进行关联，得到第二级代谢病事理知识图谱；初级代谢病事理知识图谱构建模块，用于根据所述第一级代谢病事理知识图谱和所述第二级代谢病事理知识图谱获得初级代谢病事理知识图谱；最终代谢病事理知识图谱构建模块，用于将所述初级代谢病事理知识图谱融入第三方数据库的知识，获得最终代谢病事理知识图谱，所述第三方数据库包括相关医疗知识图谱权　利　要　求　书 2/4 页 3 CN 115062162 A 3

专利 一种基于代谢病的事理知识图谱的构建方法及系统

专利一种基于代谢病的事理知识图谱的构建方法及系统