说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210732215.7 (22)申请日 2022.06.27 (71)申请人 天津联创科技发展 有限公司 地址 300308 天津市滨 海新区自贸试验区 (空港经济区) 环河北路空港商务园东 区8号楼A501-515房间 (72)发明人 张斌 李新映 滕健 高崎  (51)Int.Cl. G06N 5/02(2006.01) G06F 16/335(2019.01) G06F 16/34(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01) (54)发明名称 一种产业图谱智能生成方法及系统 (57)摘要 本发明提供了一种产业图谱智能生成方法 及系统, 通过产业源数据获取, 数据预处理以及 智能化的分析和挖掘, 构建和生成产业政策图 谱、 产业链图谱和产业发展历程图谱三维度的融 合产业图谱, 非本领域的从业人员通过该系统可 以依据产业图谱需求, 方便快捷的生成对应产业 类别下的产业图谱, 极大的提升产业数据分析的 效率。 系统会针对图谱数据进行自动化合并整 理, 进行可视化展示, 并以多种文件格式导出供 企业查看, 具有很好的用户体验。 权利要求书3页 说明书6页 附图2页 CN 114925835 A 2022.08.19 CN 114925835 A 1.一种产业图谱智能生成方法, 其特 征在于包 含如下步骤: 步骤1: 产业源数据获取, 获取的数据至少包含产业类别下的投融资数据、 政策数据、 科 研项目数据、 专利数据, 上述数据中至少包 含数据内容和发布时间; 步骤2: 数据 预处理, 按照预设的规则对获取的源数据按照数据类别进行清洗、 整理, 通 过数据标签将处 理后的源数据分别存 储于各数据子库; 步骤3: 产业图谱 包括产业政策图谱、 产业链图谱和产业发展历程图谱; 产业政策图谱生成中, 基于知识库三元组<实体, 关系, 属性>进行政策内容抽取, 构建 产业政策图谱的三元组知识图谱; 产业链图谱生成中, 对各子数据库中文本进行分词、 词向量特征提取; 进一步基于文本 聚类分析将 每个簇的主题及主题关系抽取出输出对应的产业链主题内容; 对聚类得出的产 业链主题进行类别识别, 得到分别属于产业链图谱上中下游的主题内容; 产业发展历程图谱生成中, 通过对上述得到的专利数据进行统计, 依据专利申请数量 统计产业阶段, 具体包括产业萌芽期、 快速发展期、 成熟期以及衰落期, 并按照得到的各个 产业阶段对应的时间范围, 通过数据内容的发布时间确定子库中属于该时间范围的数据, 对属于该时间范围内各子库按照产业链图谱生成中的方法进 行主题内容抽取, 形成各阶段 的产业图谱数据; 步骤4: 输出融合后的产业图谱报告, 对得到产业政策图谱、 产业链图谱和产业发展历 程图谱后自动合并形成融合后的产业图谱报告, 并进行 可视化展示。 2.根据权利要求1所述的产业图谱智能生成方法, 其特征在于: 所述产业链图谱生成具 体包含: 对各子数据库中文本进行分词处 理, 去除停用词、 语气词、 编码符号干扰; 采用TF- IDF进行特征表示以及文本特 征提取, 获取 得到每个文本的词向量特 征f; 在各子库中对相应的文本数据进行相似性的计算,得到文本间词向量特 征相似度S; 对每个文本得到的词向量相似度计算后, 建立词向量相似度图T=<S,D>, 其中S代表文 本间词向量特 征相似度,D为文本集 合构成的边; 计算相似度图中词向量特征的偏差度: , 其中 , Dv表示偏差度, dist(d)为相似度图中任意一条边的相似度, D为边 的集合; 设定一个偏差预设参数 µ=0.25, 遍历上述相似度图找到总体偏差值大于预设参数, 删 除偏差大于预设参数的子图; 遍历相似度子图中顶点个数, 删除顶点个数 大于一定数量的子图; 重复遍历上述相似度图找到总体偏差值大于预设参数, 删除偏差大于预设参数的子 图, 直到到达遍历次数或者子图变化小于一定阈值时终止条件; 完成聚类的分析后, 将每 个簇的主题及主题关系抽取 出输出对应的产业链主题内容; 进一步对得到的与产业链相关主题进行类型识别, 分别得到产业图谱中上、 中、 下游产 业图谱内容;权 利 要 求 书 1/3 页 2 CN 114925835 A 2具体通过监督学习算法对收集的产业图谱上中下游主题内容样本, 并按照上中下游类 别分别进行标记形成学习样本, 并基于有监督的样本识别方法进行识别模型训练, 识别模 型采用BP神经网络、 SVM或深度学习网络的其中一种。 3.根据权利要求2所述的产业图谱智能生成方法, 其特征在于: 在各子库中对相应的文 本数据进行相似性的计算中, 采用余弦距离度量、 Jac card 距离度量的一种或多种。 4.根据权利要求1所述的产业图谱智能生成方法, 其特征在于具体导出产业图谱报告 的文件格式为P DF、 图片文件、 HTML的其中之一。 5.一种产业图谱智能生成系统, 其特 征在于包 含如下步骤: 产业源数据获取模块, 获取的数据至少包含产业类别下的投融资数据、 政策数据、 科研 项目数据、 专利数据, 上述数据中至少包 含数据内容和发布时间; 数据预处理模块, 按照预设的规则对获取的源数据按照数据类别进行清洗、 整理, 通过 数据标签将处 理后的源数据分别存 储于各数据子库; 产业图谱智能生成模块, 包括产业政策图谱、 产业链图谱和产业发展历程图谱,产业政 策图谱生成中, 基于知识库三元组<实体, 关系, 属性>进行政策内容抽取, 构建产业政策的 三元组知识图谱; 对各子数据库中文本进行分词、 词向量特征提取; 进一步基于文本聚类分析将每个簇 的主题及主题关系抽取出输出对应的产业链主题内容; 对聚类得出的产业链主题进行类别 识别, 得到分别属于产业链图谱上中下游的主题内容; 产业发展历程图谱生成中, 通过对专利数据进行统计, 依据专利申请数量统计产业阶 段, 具体包括产业萌芽期、 快速发展期、 成熟期以及衰落期, 并按照得到的各个产业阶段对 应的时间范围, 通过数据内容的发布时间确定子库中属于该时间范围的数据, 对属于该时 间范围内各子库按照产业链图谱生成中的方法进 行主题内容抽取, 形成各阶段的产业图谱 数据, 各个阶段的产业图谱 对应生成产业发展历程图谱内容; 输出融合后的产业图谱报告模块, 对得到产业政策图谱、 产业链图谱和产业发展历程 图谱后自动合并形成融合后的产业图谱报告, 并进行 可视化展示。 6.根据权利要求5所述的产业图谱智能生成系统, 其特征在于: 产业链图谱生成中还包 含: 对各子数据库中文本进行分词处 理, 去除停用词、 语气词、 编码符号干扰; 采用TF- IDF进行特征表示以及文本特 征提取, 获取 得到每个文本的词向量特 征f; 在各子库中对相应的文本数据进行相似性的计算, 得到文本间词向量特 征相似度S; 对每个文本得到的词向量相似度计算后, 建立词向量相似度图T=<S,D>, 其中S代表文 本间词向量特 征相似度,D为文本集 合构成的边; 计算相似度图中词向量特征的偏差度: , 其中 , Dv表示偏差度, dist(d)为相似度图中任意一条边的相似度, D为边 的集合; 设定一个偏差预设参数 µ=0.25, 遍历上述相似度图找到总体偏差值大于预设参数, 删 除偏差大于预设参数的子图;权 利 要 求 书 2/3 页 3 CN 114925835 A 3

.PDF文档 专利 一种产业图谱智能生成方法及系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种产业图谱智能生成方法及系统 第 1 页 专利 一种产业图谱智能生成方法及系统 第 2 页 专利 一种产业图谱智能生成方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:52:08上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。