专利一种产业图谱智能生成方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210732215.7 (22)申请日 2022.06.27 (71)申请人天津联创科技发展有限公司地址 300308 天津市滨海新区自贸试验区（空港经济区）环河北路空港商务园东区8号楼A501-515房间 (72)发明人张斌　李新映　滕健　高崎　 (51)Int.Cl. G06N 5/02(2006.01) G06F 16/335(2019.01) G06F 16/34(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01) (54)发明名称一种产业图谱智能生成方法及系统 (57)摘要本发明提供了一种产业图谱智能生成方法及系统，通过产业源数据获取，数据预处理以及智能化的分析和挖掘，构建和生成产业政策图谱、产业链图谱和产业发展历程图谱三维度的融合产业图谱，非本领域的从业人员通过该系统可以依据产业图谱需求，方便快捷的生成对应产业类别下的产业图谱，极大的提升产业数据分析的效率。系统会针对图谱数据进行自动化合并整理，进行可视化展示，并以多种文件格式导出供企业查看，具有很好的用户体验。权利要求书3页说明书6页附图2页 CN 114925835 A 2022.08.19 CN 114925835 A 1.一种产业图谱智能生成方法，其特征在于包含如下步骤：步骤1：产业源数据获取，获取的数据至少包含产业类别下的投融资数据、政策数据、科研项目数据、专利数据，上述数据中至少包含数据内容和发布时间；步骤2：数据预处理，按照预设的规则对获取的源数据按照数据类别进行清洗、整理，通过数据标签将处理后的源数据分别存储于各数据子库；步骤3：产业图谱包括产业政策图谱、产业链图谱和产业发展历程图谱；产业政策图谱生成中，基于知识库三元组<实体，关系，属性>进行政策内容抽取，构建产业政策图谱的三元组知识图谱；产业链图谱生成中，对各子数据库中文本进行分词、词向量特征提取；进一步基于文本聚类分析将每个簇的主题及主题关系抽取出输出对应的产业链主题内容；对聚类得出的产业链主题进行类别识别，得到分别属于产业链图谱上中下游的主题内容；产业发展历程图谱生成中，通过对上述得到的专利数据进行统计，依据专利申请数量统计产业阶段，具体包括产业萌芽期、快速发展期、成熟期以及衰落期，并按照得到的各个产业阶段对应的时间范围，通过数据内容的发布时间确定子库中属于该时间范围的数据，对属于该时间范围内各子库按照产业链图谱生成中的方法进行主题内容抽取，形成各阶段的产业图谱数据；步骤4：输出融合后的产业图谱报告，对得到产业政策图谱、产业链图谱和产业发展历程图谱后自动合并形成融合后的产业图谱报告，并进行可视化展示。 2.根据权利要求1所述的产业图谱智能生成方法，其特征在于：所述产业链图谱生成具体包含：对各子数据库中文本进行分词处理，去除停用词、语气词、编码符号干扰；采用TF－ IDF进行特征表示以及文本特征提取，获取得到每个文本的词向量特征f；在各子库中对相应的文本数据进行相似性的计算,得到文本间词向量特征相似度S；对每个文本得到的词向量相似度计算后，建立词向量相似度图T=<S,D>，其中S代表文本间词向量特征相似度,D为文本集合构成的边；计算相似度图中词向量特征的偏差度：，其中， Dv表示偏差度， dist(d)为相似度图中任意一条边的相似度， D为边的集合；设定一个偏差预设参数 µ=0.25，遍历上述相似度图找到总体偏差值大于预设参数，删除偏差大于预设参数的子图；遍历相似度子图中顶点个数，删除顶点个数大于一定数量的子图；重复遍历上述相似度图找到总体偏差值大于预设参数，删除偏差大于预设参数的子图，直到到达遍历次数或者子图变化小于一定阈值时终止条件；完成聚类的分析后，将每个簇的主题及主题关系抽取出输出对应的产业链主题内容；进一步对得到的与产业链相关主题进行类型识别，分别得到产业图谱中上、中、下游产业图谱内容；权　利　要　求　书 1/3 页 2 CN 114925835 A 2具体通过监督学习算法对收集的产业图谱上中下游主题内容样本，并按照上中下游类别分别进行标记形成学习样本，并基于有监督的样本识别方法进行识别模型训练，识别模型采用BP神经网络、 SVM或深度学习网络的其中一种。 3.根据权利要求2所述的产业图谱智能生成方法，其特征在于：在各子库中对相应的文本数据进行相似性的计算中，采用余弦距离度量、 Jac card 距离度量的一种或多种。 4.根据权利要求1所述的产业图谱智能生成方法，其特征在于具体导出产业图谱报告的文件格式为P DF、图片文件、 HTML的其中之一。 5.一种产业图谱智能生成系统，其特征在于包含如下步骤：产业源数据获取模块，获取的数据至少包含产业类别下的投融资数据、政策数据、科研项目数据、专利数据，上述数据中至少包含数据内容和发布时间；数据预处理模块，按照预设的规则对获取的源数据按照数据类别进行清洗、整理，通过数据标签将处理后的源数据分别存储于各数据子库；产业图谱智能生成模块，包括产业政策图谱、产业链图谱和产业发展历程图谱,产业政策图谱生成中，基于知识库三元组<实体，关系，属性>进行政策内容抽取，构建产业政策的三元组知识图谱；对各子数据库中文本进行分词、词向量特征提取；进一步基于文本聚类分析将每个簇的主题及主题关系抽取出输出对应的产业链主题内容；对聚类得出的产业链主题进行类别识别，得到分别属于产业链图谱上中下游的主题内容；产业发展历程图谱生成中，通过对专利数据进行统计，依据专利申请数量统计产业阶段，具体包括产业萌芽期、快速发展期、成熟期以及衰落期，并按照得到的各个产业阶段对应的时间范围，通过数据内容的发布时间确定子库中属于该时间范围的数据，对属于该时间范围内各子库按照产业链图谱生成中的方法进行主题内容抽取，形成各阶段的产业图谱数据，各个阶段的产业图谱对应生成产业发展历程图谱内容；输出融合后的产业图谱报告模块，对得到产业政策图谱、产业链图谱和产业发展历程图谱后自动合并形成融合后的产业图谱报告，并进行可视化展示。 6.根据权利要求5所述的产业图谱智能生成系统，其特征在于：产业链图谱生成中还包含：对各子数据库中文本进行分词处理，去除停用词、语气词、编码符号干扰；采用TF－ IDF进行特征表示以及文本特征提取，获取得到每个文本的词向量特征f；在各子库中对相应的文本数据进行相似性的计算，得到文本间词向量特征相似度S；对每个文本得到的词向量相似度计算后，建立词向量相似度图T=<S,D>，其中S代表文本间词向量特征相似度,D为文本集合构成的边；计算相似度图中词向量特征的偏差度：，其中， Dv表示偏差度， dist(d)为相似度图中任意一条边的相似度， D为边的集合；设定一个偏差预设参数 µ=0.25，遍历上述相似度图找到总体偏差值大于预设参数，删除偏差大于预设参数的子图；权　利　要　求　书 2/3 页 3 CN 114925835 A 3

专利 一种产业图谱智能生成方法及系统

专利一种产业图谱智能生成方法及系统