说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210471066.3 (22)申请日 2022.04.28 (71)申请人 清华大学 地址 100084 北京市海淀区清华园 申请人 华中科技大 学 北京邮电大 学 (72)发明人 周源 褚恒 孔德婧 陈吉红  杨建中  (74)专利代理 机构 华中科技大 学专利中心 42201 专利代理师 胡秋萍 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/38(2019.01) G06F 16/35(2019.01) G06F 40/30(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 分类号共现网络的构建方法、 技术机会识别 方法和系统 (57)摘要 本发明公开了分类号共现网络的构建方法、 技术机会识别方法和系统, 属于技术机会识别领 域。 采用联合专利分类(CPC)的语义信息和共现 信息相结合形成CPC共现网络, 再通过图神经网 络模型挖掘CPC节点之间隐藏的连接模式, 然后 预测与代表目标领域的人工节点可能发生连接 的CPC节点, 最终识别目标领域未来可能出现的 技术发展点, 为技术发展战略的制定提供一定的 决策支持。 本发明能够充分结合CPC的语义信息 和共现信息挖掘技术之间潜在的关联, 丰富的节 点特征为模 型的学习提供了良好的基础, 可以帮 助更好地进行技 术机会的识别。 权利要求书3页 说明书8页 附图3页 CN 114817567 A 2022.07.29 CN 114817567 A 1.一种分类号共现网络的构建方法, 其特 征在于, 该构建方法包括以下步骤: S1.对于目标领域和待分析领域中的每个专利, 确定该专利的分类号共现信息; 对于目 标领域和待识别领域中的所有专利, 统计所有出现过的分类号构成分类号 集合; S2.对于所述分类号集合中的每个分类号, 基于出现过该分类号的所有专利文本, 构建 该分类号的文本信息; S3.将分类号视为文档, 分类号的文本信息视为单词, 训练第一Doc2vec模型, 得到所述 分类号集合中的各分类号的语义向量; 将专利视为文档, 分类号视为单词, 训练第二 Doc2vec模型, 得到所述分类号 集合中的各分类号的共现向量; S4.将所述分类号集合中的每个分类号的语义向量和共现 向量组合为该分类号对应的 分类号向量; S5.将所述分类号集合中的每个分类号抽象为网络节点, 其对应分类号向量作为该网 络节点的属 性, 若两个网络节点之间共现次数超过设定阈值, 在两个分类号对应的网络节 点之间添加边, 从而实现分类号共现网络的构建。 2.一种技 术机会识别方法, 其特 征在于, 该识别方法包括以下步骤: S1.采用权利要求1所述的方法, 分别构建过去时间段的分类号共现网络、 当前时间段 的分类号共现网络、 包 含过去时间段和当前时间段的分类号共现网络; S2.在过去时间段中不存在但在当前时间段中存在边对应的节点对作为正样本, 在过 去时间段和当前时间段中都不存在边对应的节点对作为负 样本, 得到训练样本集; S3.统计目标 领域中的所有专利出现过的所有分类号构成目标 领域分类号 集合; S4.将目标领域分类号集合中各分类号对应的分类号向量加权平均, 得到目标领域节 点向量, 并将目标领域节点加入到包含过去时间段和当前时间段 的分类号共现网络中, 并 在目标领域节点与目标领域分类号集合中的所有节点之 间添加边, 将目标领域节点与目标 领域分类号 集合以外的所有节点逐一对应, 生成待测样本集; S5.将待测样本集中各待测样本分别输入经训练样本集训练过的图神经网络模型, 得 到各待测样本产生 边的概率。 3.如权利要求2所述的技术机会识别方法, 其特征在于, 步骤S4中, 所述目标领域节点 通过以下 方式添加到包 含过去时间段和当前时间段的分类号共现网络中: (1)统计目标 领域分类号 集合中各分类号出现次数; (2)以特定分类号出现次数除以分类号出现次数最大值的结果作为该分类号的权 重; (3)将目标领域分类号集合中各分类号对应的分类号向量加权平均, 得到目标领域节 点向量; (4)将目标领域节点与目标领域分类号集合中的所有节点之间添加边, 边的权重即为 对应分类号的权 重。 4.如权利要求2所述的技术机会识别方法, 其特征在于, 所述图神经网络模型通过以下 方式训练: 1)构建节点对的封闭子图: 封闭子图从需要预测链接的中心节点出发向外搜索k阶邻居节点得到, 遍历每一个正 样本节点对以及负 样本节点对, 保存每一个节点对的封闭子图中所有节点索引; 2)区分节点的相对位置:权 利 要 求 书 1/3 页 2 CN 114817567 A 2通过节点标记方法来区分重要性, 公式如下: d=dx+dy Label(i)=1+mi n(dx, dy)+(d/2)[(d/2)+(d%2) ‑1] 式中, dx, dy分别为封闭子图中的节点到两个中心节点x, y 的距离, Label(i)代表节点i 的标签, 定 义中心节点x, y的标签为1; 若对 于节点i有(dx, dy)=(1, 1), 则分配标签 Label(i) =2; 若对于节点i有(dx, dy)=(1, 2)或(dx, dy)=(2, 1), 则分配标签Label(i)=3; 以此类 推; 3)获得封闭子图的邻接矩阵和节点信息矩阵: 邻接矩阵包含了封闭子图中节点之间边的信 息; 节点信 息矩阵包含封闭子图中所有节 点的特征, 矩阵中的一行代表一个节点, 每一行 由节点的语义向量、 共现向量和标签组成, 图神经网络模型的一个训练样本即为 一个封闭子图的邻接矩阵和节点信息矩阵。 5.如权利要求2所述的技术机会识别方法, 其特征在于, 所述技术机会识别方法还包 括: 筛选可能成为技术机会的分类号, 形成一级技术清单, 所述一级技术为分类号的技术 内涵; 搜索目标领域中包含技术机会分类号的专利提炼具体的技术项, 提炼二级技术清单, 所述二级技术为对应分类号包 含的专利中提取的技 术项。 6.如权利要求5所述的技术机会识别方法, 其特征在于, 二级技术清单通过以下方式获 取: 对于一级技术清单中的每个分类号, 获取该分类号对应技术机会领域5年内的所有专 利, 采用拓扑聚类算法将获取到的专利聚类成多个簇团, 每个簇团对应该技术机会的一个 子领域; 分别统计各簇团中专利文本提取 得到的单词的词频, 得到各簇团的高频 单词集合; 依据高频 单词集合, 从各簇团中筛 选出高频 单词出现次数超过阈值的专利; 对于各簇团筛 选出的各专利, 通过奇异值中心性计算该专利的重要性; 对于高频 单词筛选后的各簇团, 从各簇团中筛 选出重要性超过阈值的专利; 对于经过两层筛选后各簇团中的专利, 从专利文本中提炼具体的技术项, 生成从属于 该分类号的多 项二级技 术。 7.如权利要求5或6所述的技术机会识别方法, 其特征在于, 所述技术机会识别方法还 包括: 使用技术机会分类号下的所有专利和目标 领域专利构建专利引用网络; 将所有数据切分成仅包含目标领域分类号的专利、 仅包含技术机会分类号的专利以及 同时包含目标领域分类号和技术机会分类号的专利, 分别使用拓扑聚类算法将专利聚类成 多个簇团, 所述簇团定义 为技术主题; 分析三类节点随时间推移的聚合趋势变化, 添加至技术清单中作为一级技术机会的发 展态势描述。 8.一种技 术机会识别系统, 其特 征在于, 包括: 计算机可读存 储介质和处 理器; 所述计算机可读存 储介质用于存 储可执行指令; 所述处理器用于读取所述计算机可读存储介质中存储的可执行指令, 执行权利要求2权 利 要 求 书 2/3 页 3 CN 114817567 A 3

.PDF文档 专利 分类号共现网络的构建方法、技术机会识别方法和系统

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 分类号共现网络的构建方法、技术机会识别方法和系统 第 1 页 专利 分类号共现网络的构建方法、技术机会识别方法和系统 第 2 页 专利 分类号共现网络的构建方法、技术机会识别方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:57:15上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。