说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210405898.5 (22)申请日 2022.04.18 (71)申请人 成都卓讯智安科技有限公司 地址 610000 四川省成 都市成都高新区科 园二路10号3 栋1单元7层1号 (72)发明人 周昔元 母坤平 眭新光  (74)专利代理 机构 北京睿博行远知识产权代理 有限公司 1 1297 专利代理师 申超平 (51)Int.Cl. G06F 16/36(2019.01) G06N 5/02(2006.01) G06F 40/295(2020.01) G06K 9/62(2022.01) (54)发明名称 一种知识图谱 模型的构建方法和系统 (57)摘要 本发明公开了一种知识图谱模型的构建方 法和系统, 该方法包括: 基于预设关系库抽取模 型从预设关系型数据库中抽取与模型类型对应 的第一类实体数据, 并基于预设文件 数据抽取模 型从预设文件数据中抽取与模型类型对应的第 二类实体数据; 调用全局属性库确定第一类实体 数据和第二类实体数据中的各实体的实体属性; 根据预设融合策略分别对各实体和各实体属性 进行融合, 并根据融合结果生 成多个具有目标属 性的目标 实体; 据预设语料数据构建各目标实体 之间的关联关系, 并根据构建结果生成知识图谱 模型; 其中, 全局属性库是用户预先基于从多种 数据源抽取的实体属性信息构建的, 从而快速准 确的进行知识图谱模型的构建, 降低了人工成 本, 提高了用户体验。 权利要求书2页 说明书7页 附图3页 CN 114722215 A 2022.07.08 CN 114722215 A 1.一种知识图谱 模型的构建方法, 其特 征在于, 所述方法包括: 根据用户发出的模型创建指令确定用户指定的模型类型; 基于预设关系库抽取模型从预设关系型数据库中抽取与所述模型类型对应的第一类 实体数据, 并基于预设文件数据抽取模型从预设文件数据中抽取与所述模 型类型对应的第 二类实体数据; 调用全局属性库确定所述第一类实体数据和所述第二类实体数据中的各实体的实体 属性; 根据预设融合策略分别对各所述实体和各所述实体属性进行融合, 并根据融合结果生 成多个具有目标属性的目标实体; 根据预设语料数据构建各所述目标实体之间的关联关系, 并根据构建结果生成知识图 谱模型; 其中, 所述全局 属性库是用户预 先基于从多种数据源抽取的实体属性信息构建的。 2.如权利要求1所述的方法, 其特征在于, 根据预设融合策略分别对各所述实体和各所 述实体属性进行融合, 具体为: 基于各所述实体名称及所属业务类型判断是否存在属于同含义的实体, 若存在, 在属 于同含义的实体的别名列表中追加别名; 基于各所述实体属性的名称和所属业务类型判断是否存在属于同含义的属性, 若存 在, 在属于同含义的属性的别名列表中追加别名。 3.如权利要求2所述的方法, 其特 征在于, 所述方法还 包括: 在接收到用户发出的查重指令时, 基于预设实体消歧聚类法确定属于同含义的实体和 属于同含义的属性并向用户展示; 在接收到用户对属于同含义的实体的融合指令时, 对属于同含义的实体进行合并消 歧; 在接收到用户对属于同含义的属性的融合指令时, 对属于同含义的属性进行合并消 歧。 4.如权利要求1所述的方法, 其特征在于, 所述预设语料数据包括结构化数据和非结构 化数据, 根据预设语料 数据构建各 所述目标实体之间的关联关系, 具体为: 若所述预设语料数据为非结构化数据, 对所述预设语料数据进行语义识别后确定所述 关联关系; 若所述预设语料数据为结构化数据, 根据所述预设语料数据中的表的关联关系、 表与 表之间的主外 键关系及描述确定所述关联关系。 5.如权利要求 4所述的方法, 其特 征在于, 所述方法还 包括: 在接收到用户对所述关联关系的修正或编辑指令时, 对所述关联关系进行修正或编 辑。 6.如权利要求1所述的方法, 其特征在于, 基于预设关系库抽取模型从预设关系型数据 库中抽取与所述模型类型对应的第一类实体数据, 具体为: 通过驱动连接所述预设 关系库抽取模型和所述预设 关系型数据库; 基于所述预设关系库抽取模型对所述预设关系型数据库中的数据表结构进行提取和 分析;权 利 要 求 书 1/2 页 2 CN 114722215 A 2基于提取和分析的结果抽取 所述第一类实体数据; 其中, 所述预设 关系库抽取模型 是根据已知的实体实例迭代进行 特征建模后生成的。 7.如权利要求1所述的方法, 其特征在于, 基于预设文件数据抽取模型从预设文件数据 中抽取与所述模型类型对应的第二类实体数据, 具体为: 基于所述预设文件数据抽取模型对所述预设文件数据进行语义识别后确定待分类实 体数据; 基于所述预设文件数据抽取模型对所述待分类实体数据聚类分析后抽取所述第二类 实体数据; 其中, 所述预设文件数据包括非结构化文件数据以及扫描到或用户上传的结构化文件 数据。 8.如权利要求1所述的方法, 其特 征在于, 所述全局 属性库的构建过程包括: 基于网络上的半结构化数据生成训练语料并对预设属性标注模型进行训练, 基于训练 好的预设属性标注模型对非结构化数据进行属性信息抽取; 对文本进行数据挖掘并确定属性和属性值之间的关系模式, 并基于所述关系 模式确定 属性和属性值在文本中的定位, 根据所述定位抽取属性信息; 通过可视化界面自定义添加业 务模型的属性, 并赋予其类型和业 务关系; 通过驱动连接各关系数据库, 并对数据表结构进行提取和分析后抽取属性信息; 将现有结构化的文件上传并自动抽取头文件和正则适配后抽取属性信息; 将抽取的属性信息按类型 添加后构建出 所述全局 属性库。 9.一种知识图谱 模型的构建系统, 其特 征在于, 所述系统包括: 第一确定模块, 用于根据用户发出的模型创建指令确定用户指定的模型类型; 抽取模块, 用于基于预设关系库抽取模型从预设关系型数据库中抽取与所述模型类型 对应的第一类实体数据, 并基于预设文件数据抽取模型从预设文件数据中抽取与所述模型 类型对应的第二类实体数据; 第二确定模块, 用于调用全局属性库确定所述第 一类实体数据和所述第 二类实体数据 中的各实体的实体属性; 第一生成模块, 用于根据预设融合策略分别对各所述实体和各所述实体属性进行融 合, 并根据融合结果 生成多个具有目标属性的目标实体; 第二生成模块, 用于根据预设语料数据构建各所述目标实体之间的关联关系, 并根据 构建结果 生成知识图谱 模型; 其中, 所述全局 属性库是用户预 先基于从多种数据源抽取的实体属性信息构建的。 10.如权利要求9所述的系统, 其特 征在于, 所述系统还 包括: 可视化界面, 用于向用户展示所述知识图谱 模型和接收用户的操作指令 。权 利 要 求 书 2/2 页 3 CN 114722215 A 3

.PDF文档 专利 一种知识图谱模型的构建方法和系统

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种知识图谱模型的构建方法和系统 第 1 页 专利 一种知识图谱模型的构建方法和系统 第 2 页 专利 一种知识图谱模型的构建方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:54:46上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。