说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210686880.7 (22)申请日 2022.06.17 (71)申请人 哈尔滨工业大 学 地址 150001 黑龙江省哈尔滨市南岗区西 大直街92号 (72)发明人 关皓天 张宏莉 王星 刘立坤  刘春雨 孟超 孙庆伟  (74)专利代理 机构 黑龙江立超同创知识产权代 理有限责任公司 23217 专利代理师 杨立超 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/295(2020.01) G06N 7/00(2006.01) G06Q 10/10(2012.01) (54)发明名称 一种企业基本信息知识图谱的构建方法及 系统 (57)摘要 本发明提供了一种企业基本信息知识图谱 的构建方法及系统。 所述构建方法包括: 首先, 对 于包含公司基本信息的网站进行数据爬虫, 采集 完成知识图谱所需的相关数据; 其次, 对构建完 成的数据集进行知 识抽取: 实体抽取、 关系抽取、 属性抽取, 从复杂的数据集中明确研究对象; 然 后, 对得到的实体、 关系、 属性集合进行知识融 合, 完成实体 ‑关系‑实体或者实体 ‑属性‑属性值 的三元组建立, 完成知识图谱的构建过程, 并利 用构建完成的知识 图谱与马尔可夫逻辑网结构 学习结合完成知识推理。 本发明搭建了一个小型 知识图谱, 不仅制作了一个包含企业信息的 “百 科知识库 ”, 并且可进一步利用谓词表示及马尔 可夫逻辑网对缺失信息的企业的各方面信息进 行准确预测。 权利要求书2页 说明书9页 附图2页 CN 114896423 A 2022.08.12 CN 114896423 A 1.一种企业基本信息知识图谱的构建方法, 其特 征在于, 包括以下步骤: 构建包含多个企业的企业信息、 企业学术 论文信息、 企业专利 信息的数据集; 在所述数据集中选择知识图谱架构中的实体、 属性及实体间的关系; 对实体、 关系、 属性集合进行知识融合, 完成实体 ‑关系‑实体或实体 ‑属性‑属性值的三 元组建立过程, 完成企业基本信息知识图谱的构建。 2.根据权利要求1所述的一种企业基本信息知识图谱的构建方法, 其特征在于, 还包 括: 利用构建完成的知识图谱, 将三元组转换成谓词表示, 并与马尔可夫逻辑网结构结合, 完成知识推理。 3.根据权利要求1或2所述的一种企业基本信息知识图谱的构建方法, 其特征在于, 在 所述数据集中选择企业、 企业高管、 持股信息记录、 基金、 机构、 企业学术论文、 企业专利信 息作为知识图谱的实体, 所述持股信息记录包括基金持股信息记录和机构持股信息记录; 在所述数据集中选择 各个实体的属性确定如下: a.企业: 公司名称、 英文名称、 董事长、 主要股东、 成立日期、 主营业务、 公司简介、 员工 人数、 管理层人数、 上市日期、 发行量、 发行价格、 交易市场、 联系电话、 邮政编码、 传真、 电子 邮箱、 公司网址、 注 册地址、 办公地址; b.企业高管: 高管姓名、 高管职务、 高管薪酬、 高管年薪货币单位; c.基金持股信息记录或机构持股信息记录: 日期、 持有者、 持有份额、 持股比例、 变化 率、 份额变化、 变化金额、 占组合比; d.企业学术 论文: 学术 论文编号、 学术 论文标题、 学术 论文作者、 论文摘要、 公布日期; e.企业专利信息: 专利标题、 专利申请编号、 专利申请日期、 专利公布日期、 专利申请 人。 4.根据权利要求3所述的一种企业基本信 息知识图谱的构建方法, 其特征在于, 不同实 体间的关系 具体确定如下: 企业和企业高管之间的关系为管理人员; 企业和企业学术论文 之间的关系为持有学术论文; 企业和企业专利信息之间的关系为持有专利信息; 企业和基 金持股信息记录之间的关系为基金持股; 企业和机构持股信息记录之间的关系为机构持 股; 基金和基金持股信息记录之间的关系为基金持股; 机构和机构持股信息记录之间的关 系为机构持股。 5.根据权利要求2所述的一种企业基本信 息知识图谱的构建方法, 其特征在于, 所述马 尔可夫逻辑网结构的学习流 程为: 获取子句集 合; 初始化学习权 重和最优期望值; 设置标志位 等于0; 寻找最优子句, 如果最优子句为空, 则标志位加1, 继续寻找; 如果最优子句不为空, 则 添加最优子句到马尔可 夫逻辑网中, 并计算 最优期望; 判断标志位的值是否等于2, 等于2则结束, 若不 等于2则继续 寻找最优子句; 其中, 所述最优子句为子句与谓词连接后得到的最优子句; 所述最优期望为评判子句 与谓词连接的结果的评价标准, 影响最终得 出子句的权值大小。 6.一种企业基本信息知识图谱的构建系统, 其特 征在于, 包括: 数据集获取模块, 其配置成构建包含多个企业的企业信 息、 企业学术论文信息、 企业专 利信息的数据集;权 利 要 求 书 1/2 页 2 CN 114896423 A 2知识图谱构建模块, 其配置成在所述数据集中选择知识图谱架构中的实体、 属性及实 体间的关系; 对实体、 关系、 属性集合进行知识 融合, 完成实体 ‑关系‑实体或实体 ‑属性‑属 性值的三元组建立过程, 完成企业基本信息知识图谱的构建。 7.根据权利要求6所述的一种企业基本信 息知识图谱的构建系统, 其特征在于, 还包括 知识推理模块, 其配置成利用构建完成的知识图谱, 将三元 组转换成谓词表示, 并与马尔可 夫逻辑网结构结合, 完成知识推理。 8.根据权利要求6或7所述的一种企业基本信息知识图谱的构建系统, 其特征在于, 所 述知识图谱构建模块中在所述数据集中选择企业、 企业高管、 持股信息记录、 基金、 机构、 企 业学术论文、 企业专利信息作为知识图谱的实体, 所述持股信息记录包括基金持股信息记 录和机构持股信息记录; 在所述数据集中选择 各个实体的属性确定如下: a.企业: 公司名称、 英文名称、 董事长、 主要股东、 成立日期、 主营业务、 公司简介、 员工 人数、 管理层人数、 上市日期、 发行量、 发行价格、 交易市场、 联系电话、 邮政编码、 传真、 电子 邮箱、 公司网址、 注 册地址、 办公地址; b.企业高管: 高管姓名、 高管职务、 高管薪酬、 高管年薪货币单位; c.基金持股信息记录或机构持股信息记录: 日期、 持有者、 持有份额、 持股比例、 变化 率、 份额变化、 变化金额、 占组合比; d.企业学术 论文: 学术 论文编号、 学术 论文标题、 学术 论文作者、 论文摘要、 公布日期; e.企业专利信息: 专利标题、 专利申请编号、 专利申请日期、 专利公布日期、 专利申请 人。 9.根据权利要求8所述的一种企业基本信 息知识图谱的构建系统, 其特征在于, 所述知 识图谱构建模块中不同实体间的关系具体确定如下: 企业和企业高管之间的关系为管理人 员; 企业和企业学术论文之间的关系为持有学术论文; 企业和企业专利信息之间的关系为 持有专利信息; 企业和基金持股信息记录之间的关系为基金持股; 企业和机构持股信息记 录之间的关系为机构持股; 基金和基金持股信息记录之间的关系为基金持股; 机构和机构 持股信息记录之间的关系为机构持股。 10.根据权利要求7所述的一种企业基本信息知识图谱的构建系统, 其特征在于, 所述 知识推理模块中所述马尔可 夫逻辑网结构的学习流 程为: 获取子句集 合; 初始化学习权 重和最优期望值; 设置标志位 等于0; 寻找最优子句, 如果最优子句为空, 则标志位加1, 继续寻找; 如果最优子句不为空, 则 添加最优子句到马尔可 夫逻辑网中, 并计算 最优期望; 判断标志位的值是否等于2, 等于2则结束, 若不 等于2则继续 寻找最优子句; 其中, 所述最优子句为子句与谓词连接后得到的最优子句; 所述最优期望为评判子句 与谓词连接的结果的评价标准, 影响最终得 出子句的权值大小。权 利 要 求 书 2/2 页 3 CN 114896423 A 3

.PDF文档 专利 一种企业基本信息知识图谱的构建方法及系统

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种企业基本信息知识图谱的构建方法及系统 第 1 页 专利 一种企业基本信息知识图谱的构建方法及系统 第 2 页 专利 一种企业基本信息知识图谱的构建方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:52:11上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。