专利一种面向开放领域的细粒度知识抽取方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210829910.5 (22)申请日 2022.07.14 (71)申请人中移（苏州）软件技术有限公司地址 215011 江苏省苏州市苏州高新区昆仑山路58号1幢申请人苏州海赛人工智能有限公司 (72)发明人胡静远　刘洪强　沈翀　 (74)专利代理机构南通云创慧泉专利代理事务所(普通合伙) 32585 专利代理师邵永永 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/36(2019.01) G06F 40/253(2020.01) (54)发明名称一种面向开放领域的细粒度知识抽取方法 (57)摘要本发明公开了一种面向开放领域的细粒度知识抽取方法,采集计算机初级领域库本体；对采集的初级领域库本体进行确定各个初级领域类型；将确定各个初级领域类型后的计算机初级领域库本体进行语法识别，得到语句倒叙；将得到的语句倒叙，结合标注的不同词性的词语，进行逻辑倒叙抽取，得到初始的计算机逻辑倒叙；如果初始的计算机逻辑倒叙没有重复，得到最终的计算机逻辑倒叙；将得到的最终计算机逻辑倒叙转换为知识图谱并呈现。本发明解决了计算机初级领域库本体知识抽取准确率低下、覆盖范围不足，使得计算机初级领域库本体不能够得到充分利用、发挥其价值的问题，提高计算机领域知识抽取准确率及覆盖范围。权利要求书1页说明书5页附图1页 CN 115309875 A 2022.11.08 CN 115309875 A 1.一种面向开放领域的细粒度知识抽取方法，其特征在于，包括以下步骤：步骤A1：采集计算机初级领域库本体；步骤A2：对步骤A1采集的初级领域库本体进行确定各个初级领域类型；步骤A3：将步骤A2确定各个初级领域类型后的计算机初级领域库本体进行语法识别，得到语句倒叙；步骤A4：将步骤A3得到的语句倒叙，结合标注的不同词性的词语，进行逻辑倒叙抽取，得到初始的计算机逻辑倒叙；步骤A5：如果初始的计算机逻辑倒叙没有重复，得到最终的计算机逻辑倒叙；步骤A6：将步骤A5得到的最终计算机逻辑倒叙转换为知识图谱并呈现。 2.根据权利要求1所述的计算机初级领域库本体知识抽取方法，其特征在于，步骤A1 中，通过计算机业务知识，构建计算机领域的知识数据库，同时对不同词性的词语加以编号以及量表的标注。 3.根据权利要求1所述的计算机初级领域库本体知识抽取方法，其特征在于，步骤A2 中，采用C++自然语言处理工具对初级领域库本体进行分词以及词性标注确定各个初级领域类型，将确定各个初级领域类型的初级领域库本体转换成本体矩阵。 4.根据权利要求1所述的计算机初级领域库本体知识抽取方法，其特征在于，步骤A3 中，将确定各个初级领域类型后的计算机初级领域库本体中的句子表示成一栋建筑物，依据建筑物，建筑物内的房间代表词语。 5.根据权利要求1所述的计算机初级领域库本体知识抽取方法，其特征在于，步骤A4 中，计算机逻辑倒叙为插叙、倒叙和插叙的三种表示，标注的不同词性的词语为主语、谓语或宾语，标注的不同词性的词语对应有相应的命名插叙。 6.根据权利要求5所述的计算机初级领域库本体知识抽取方法，其特征在于，步骤A5 中，如果初始的计算机逻辑倒叙有重复，则过滤，直至没有重复的计算机逻辑倒叙。 7.根据权利要求1所述的计算机初级领域库本体知识抽取方法，其特征在于，步骤A6 中，知识图谱为关键点、普通点以及关键点的方式，关键点表示插叙，关键点与关键点之间的普通点表示插叙间倒叙。权　利　要　求　书 1/1 页 2 CN 115309875 A 2一种面向开放领域的细粒度知识抽取方法技术领域 [0001]本发明涉及计算机技术领域，具体为一种面向开放领域的细粒度知识抽取方法。背景技术 [0002]本体知识系统作为人工智能学科最重要的工业化和商业化产物，辅助计算机科学领域向更加智能化方向发展，为了构建本体知识，人们探索了很多方法来帮助从非结构化的文本数据中提取知识，由于互联网页面包含的数据和知识丰富，为本体知识构建提供了宝贵资源，而互联网页面中的表格数据由于结构化的组织形式，有利于实现知识与数据之间的映射，通过抽取网页表格数据用于本体知识构建，将有效帮助完成本体知识构建过程。 [0003]现有本体知识抽取技术，主要集中在本体知识构建过程的整体实现上，较多注重系统或设备本身，只是提供了人机交互接口，辅助完成本体知识构建的各个流程，较少涉及知识自动化抽取技术的创新，知识抽取大多需要依赖专家进行抽取规则或训练数据的整理，现有技术实质上是辅助进行人工整理工作的半自动化抽取系统，并非真正意义上的自动化抽取，且存在由于专家和数据的知识偏差导致后续错误的风险，且容易出现语义模糊。发明内容 [0004](一)解决的技术问题 [0005]针对现有技术的不足，本发明提供了一种面向开放领域的细粒度知识抽取方法，解决了由于专家和数据的知识偏差导致后续错误的风险以及容易出现语义模糊的问题。 [0006](二)技术方案 [0007]为实现以上目的，本发明通过以下技术方案予以实现：一种面向开放领域的细粒度知识抽取方法，包括以下步骤： [0008]步骤A1：采集计算机初级领域库本体； [0009]步骤A2：对步骤A1采集的初级领域库本体进行确定各个初级领域类型； [0010]步骤A3：将步骤A2确定各个初级领域类型后的计算机初级领域库本体进行语法识别，得到依存倒叙； [0011]步骤A4：将步骤A3得到的语句倒叙，结合标注的不同词性的词语，进行逻辑倒叙抽取，得到初始的计算机逻辑倒叙； [0012]步骤A5：如果初始的计算机逻辑倒叙没有重复，得到最终的计算机逻辑倒叙； [0013]步骤A6：将步骤A5得到的最终计算机逻辑倒叙转换为知识图谱并呈现。 [0014]具体的，步骤A1中，通过计算机业务知识，构建计算机领域的知识数据库，同时对不同词性的词语加以编号以及量表的标注。 [0015]具体的，步骤A2中，采用C++自然语言处理工具对初级领域库本体进行分词以及词性标注确定各个初级领域类型，将确定各个初级领域类型的初级领域库本体转换成本说　明　书 1/5 页 3 CN 115309875 A 3

专利 一种面向开放领域的细粒度知识抽取方法

专利一种面向开放领域的细粒度知识抽取方法