专利一种知识图谱模型的构建方法和系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210405898.5 (22)申请日 2022.04.18 (71)申请人成都卓讯智安科技有限公司地址 610000 四川省成都市成都高新区科园二路10号3 栋1单元7层1号 (72)发明人周昔元　母坤平　眭新光　 (74)专利代理机构北京睿博行远知识产权代理有限公司 1 1297 专利代理师申超平 (51)Int.Cl. G06F 16/36(2019.01) G06N 5/02(2006.01) G06F 40/295(2020.01) G06K 9/62(2022.01) (54)发明名称一种知识图谱模型的构建方法和系统 (57)摘要本发明公开了一种知识图谱模型的构建方法和系统，该方法包括：基于预设关系库抽取模型从预设关系型数据库中抽取与模型类型对应的第一类实体数据，并基于预设文件数据抽取模型从预设文件数据中抽取与模型类型对应的第二类实体数据；调用全局属性库确定第一类实体数据和第二类实体数据中的各实体的实体属性；根据预设融合策略分别对各实体和各实体属性进行融合，并根据融合结果生成多个具有目标属性的目标实体；据预设语料数据构建各目标实体之间的关联关系，并根据构建结果生成知识图谱模型；其中，全局属性库是用户预先基于从多种数据源抽取的实体属性信息构建的，从而快速准确的进行知识图谱模型的构建，降低了人工成本，提高了用户体验。权利要求书2页说明书7页附图3页 CN 114722215 A 2022.07.08 CN 114722215 A 1.一种知识图谱模型的构建方法，其特征在于，所述方法包括：根据用户发出的模型创建指令确定用户指定的模型类型；基于预设关系库抽取模型从预设关系型数据库中抽取与所述模型类型对应的第一类实体数据，并基于预设文件数据抽取模型从预设文件数据中抽取与所述模型类型对应的第二类实体数据；调用全局属性库确定所述第一类实体数据和所述第二类实体数据中的各实体的实体属性；根据预设融合策略分别对各所述实体和各所述实体属性进行融合，并根据融合结果生成多个具有目标属性的目标实体；根据预设语料数据构建各所述目标实体之间的关联关系，并根据构建结果生成知识图谱模型；其中，所述全局属性库是用户预先基于从多种数据源抽取的实体属性信息构建的。 2.如权利要求1所述的方法，其特征在于，根据预设融合策略分别对各所述实体和各所述实体属性进行融合，具体为：基于各所述实体名称及所属业务类型判断是否存在属于同含义的实体，若存在，在属于同含义的实体的别名列表中追加别名；基于各所述实体属性的名称和所属业务类型判断是否存在属于同含义的属性，若存在，在属于同含义的属性的别名列表中追加别名。 3.如权利要求2所述的方法，其特征在于，所述方法还包括：在接收到用户发出的查重指令时，基于预设实体消歧聚类法确定属于同含义的实体和属于同含义的属性并向用户展示；在接收到用户对属于同含义的实体的融合指令时，对属于同含义的实体进行合并消歧；在接收到用户对属于同含义的属性的融合指令时，对属于同含义的属性进行合并消歧。 4.如权利要求1所述的方法，其特征在于，所述预设语料数据包括结构化数据和非结构化数据，根据预设语料数据构建各所述目标实体之间的关联关系，具体为：若所述预设语料数据为非结构化数据，对所述预设语料数据进行语义识别后确定所述关联关系；若所述预设语料数据为结构化数据，根据所述预设语料数据中的表的关联关系、表与表之间的主外键关系及描述确定所述关联关系。 5.如权利要求 4所述的方法，其特征在于，所述方法还包括：在接收到用户对所述关联关系的修正或编辑指令时，对所述关联关系进行修正或编辑。 6.如权利要求1所述的方法，其特征在于，基于预设关系库抽取模型从预设关系型数据库中抽取与所述模型类型对应的第一类实体数据，具体为：通过驱动连接所述预设关系库抽取模型和所述预设关系型数据库；基于所述预设关系库抽取模型对所述预设关系型数据库中的数据表结构进行提取和分析；权　利　要　求　书 1/2 页 2 CN 114722215 A 2基于提取和分析的结果抽取所述第一类实体数据；其中，所述预设关系库抽取模型是根据已知的实体实例迭代进行特征建模后生成的。 7.如权利要求1所述的方法，其特征在于，基于预设文件数据抽取模型从预设文件数据中抽取与所述模型类型对应的第二类实体数据，具体为：基于所述预设文件数据抽取模型对所述预设文件数据进行语义识别后确定待分类实体数据；基于所述预设文件数据抽取模型对所述待分类实体数据聚类分析后抽取所述第二类实体数据；其中，所述预设文件数据包括非结构化文件数据以及扫描到或用户上传的结构化文件数据。 8.如权利要求1所述的方法，其特征在于，所述全局属性库的构建过程包括：基于网络上的半结构化数据生成训练语料并对预设属性标注模型进行训练，基于训练好的预设属性标注模型对非结构化数据进行属性信息抽取；对文本进行数据挖掘并确定属性和属性值之间的关系模式，并基于所述关系模式确定属性和属性值在文本中的定位，根据所述定位抽取属性信息；通过可视化界面自定义添加业务模型的属性，并赋予其类型和业务关系；通过驱动连接各关系数据库，并对数据表结构进行提取和分析后抽取属性信息；将现有结构化的文件上传并自动抽取头文件和正则适配后抽取属性信息；将抽取的属性信息按类型添加后构建出所述全局属性库。 9.一种知识图谱模型的构建系统，其特征在于，所述系统包括：第一确定模块，用于根据用户发出的模型创建指令确定用户指定的模型类型；抽取模块，用于基于预设关系库抽取模型从预设关系型数据库中抽取与所述模型类型对应的第一类实体数据，并基于预设文件数据抽取模型从预设文件数据中抽取与所述模型类型对应的第二类实体数据；第二确定模块，用于调用全局属性库确定所述第一类实体数据和所述第二类实体数据中的各实体的实体属性；第一生成模块，用于根据预设融合策略分别对各所述实体和各所述实体属性进行融合，并根据融合结果生成多个具有目标属性的目标实体；第二生成模块，用于根据预设语料数据构建各所述目标实体之间的关联关系，并根据构建结果生成知识图谱模型；其中，所述全局属性库是用户预先基于从多种数据源抽取的实体属性信息构建的。 10.如权利要求9所述的系统，其特征在于，所述系统还包括：可视化界面，用于向用户展示所述知识图谱模型和接收用户的操作指令。权　利　要　求　书 2/2 页 3 CN 114722215 A 3

专利 一种知识图谱模型的构建方法和系统

专利一种知识图谱模型的构建方法和系统