专利分类号共现网络的构建方法、技术机会识别方法和系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210471066.3 (22)申请日 2022.04.28 (71)申请人清华大学地址 100084 北京市海淀区清华园申请人华中科技大学　北京邮电大学 (72)发明人周源　褚恒　孔德婧　陈吉红　杨建中　 (74)专利代理机构华中科技大学专利中心 42201 专利代理师胡秋萍 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/38(2019.01) G06F 16/35(2019.01) G06F 40/30(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称分类号共现网络的构建方法、技术机会识别方法和系统 (57)摘要本发明公开了分类号共现网络的构建方法、技术机会识别方法和系统，属于技术机会识别领域。采用联合专利分类(CPC)的语义信息和共现信息相结合形成CPC共现网络，再通过图神经网络模型挖掘CPC节点之间隐藏的连接模式，然后预测与代表目标领域的人工节点可能发生连接的CPC节点，最终识别目标领域未来可能出现的技术发展点，为技术发展战略的制定提供一定的决策支持。本发明能够充分结合CPC的语义信息和共现信息挖掘技术之间潜在的关联，丰富的节点特征为模型的学习提供了良好的基础，可以帮助更好地进行技术机会的识别。权利要求书3页说明书8页附图3页 CN 114817567 A 2022.07.29 CN 114817567 A 1.一种分类号共现网络的构建方法，其特征在于，该构建方法包括以下步骤： S1.对于目标领域和待分析领域中的每个专利，确定该专利的分类号共现信息；对于目标领域和待识别领域中的所有专利，统计所有出现过的分类号构成分类号集合； S2.对于所述分类号集合中的每个分类号，基于出现过该分类号的所有专利文本，构建该分类号的文本信息； S3.将分类号视为文档，分类号的文本信息视为单词，训练第一Doc2vec模型，得到所述分类号集合中的各分类号的语义向量；将专利视为文档，分类号视为单词，训练第二 Doc2vec模型，得到所述分类号集合中的各分类号的共现向量； S4.将所述分类号集合中的每个分类号的语义向量和共现向量组合为该分类号对应的分类号向量； S5.将所述分类号集合中的每个分类号抽象为网络节点，其对应分类号向量作为该网络节点的属性，若两个网络节点之间共现次数超过设定阈值，在两个分类号对应的网络节点之间添加边，从而实现分类号共现网络的构建。 2.一种技术机会识别方法，其特征在于，该识别方法包括以下步骤： S1.采用权利要求1所述的方法，分别构建过去时间段的分类号共现网络、当前时间段的分类号共现网络、包含过去时间段和当前时间段的分类号共现网络； S2.在过去时间段中不存在但在当前时间段中存在边对应的节点对作为正样本，在过去时间段和当前时间段中都不存在边对应的节点对作为负样本，得到训练样本集； S3.统计目标领域中的所有专利出现过的所有分类号构成目标领域分类号集合； S4.将目标领域分类号集合中各分类号对应的分类号向量加权平均，得到目标领域节点向量，并将目标领域节点加入到包含过去时间段和当前时间段的分类号共现网络中，并在目标领域节点与目标领域分类号集合中的所有节点之间添加边，将目标领域节点与目标领域分类号集合以外的所有节点逐一对应，生成待测样本集； S5.将待测样本集中各待测样本分别输入经训练样本集训练过的图神经网络模型，得到各待测样本产生边的概率。 3.如权利要求2所述的技术机会识别方法，其特征在于，步骤S4中，所述目标领域节点通过以下方式添加到包含过去时间段和当前时间段的分类号共现网络中： (1)统计目标领域分类号集合中各分类号出现次数； (2)以特定分类号出现次数除以分类号出现次数最大值的结果作为该分类号的权重； (3)将目标领域分类号集合中各分类号对应的分类号向量加权平均，得到目标领域节点向量； (4)将目标领域节点与目标领域分类号集合中的所有节点之间添加边，边的权重即为对应分类号的权重。 4.如权利要求2所述的技术机会识别方法，其特征在于，所述图神经网络模型通过以下方式训练： 1)构建节点对的封闭子图：封闭子图从需要预测链接的中心节点出发向外搜索k阶邻居节点得到，遍历每一个正样本节点对以及负样本节点对，保存每一个节点对的封闭子图中所有节点索引； 2)区分节点的相对位置：权　利　要　求　书 1/3 页 2 CN 114817567 A 2通过节点标记方法来区分重要性，公式如下： d＝dx+dy Label(i)＝1+mi n(dx， dy)+(d/2)[(d/2)+(d％2) ‑1] 式中， dx， dy分别为封闭子图中的节点到两个中心节点x， y 的距离， Label(i)代表节点i 的标签，定义中心节点x， y的标签为1；若对于节点i有(dx， dy)＝(1， 1)，则分配标签 Label(i) ＝2；若对于节点i有(dx， dy)＝(1， 2)或(dx， dy)＝(2， 1)，则分配标签Label(i)＝3；以此类推； 3)获得封闭子图的邻接矩阵和节点信息矩阵：邻接矩阵包含了封闭子图中节点之间边的信息；节点信息矩阵包含封闭子图中所有节点的特征，矩阵中的一行代表一个节点，每一行由节点的语义向量、共现向量和标签组成，图神经网络模型的一个训练样本即为一个封闭子图的邻接矩阵和节点信息矩阵。 5.如权利要求2所述的技术机会识别方法，其特征在于，所述技术机会识别方法还包括：筛选可能成为技术机会的分类号，形成一级技术清单，所述一级技术为分类号的技术内涵；搜索目标领域中包含技术机会分类号的专利提炼具体的技术项，提炼二级技术清单，所述二级技术为对应分类号包含的专利中提取的技术项。 6.如权利要求5所述的技术机会识别方法，其特征在于，二级技术清单通过以下方式获取：对于一级技术清单中的每个分类号，获取该分类号对应技术机会领域5年内的所有专利，采用拓扑聚类算法将获取到的专利聚类成多个簇团，每个簇团对应该技术机会的一个子领域；分别统计各簇团中专利文本提取得到的单词的词频，得到各簇团的高频单词集合；依据高频单词集合，从各簇团中筛选出高频单词出现次数超过阈值的专利；对于各簇团筛选出的各专利，通过奇异值中心性计算该专利的重要性；对于高频单词筛选后的各簇团，从各簇团中筛选出重要性超过阈值的专利；对于经过两层筛选后各簇团中的专利，从专利文本中提炼具体的技术项，生成从属于该分类号的多项二级技术。 7.如权利要求5或6所述的技术机会识别方法，其特征在于，所述技术机会识别方法还包括：使用技术机会分类号下的所有专利和目标领域专利构建专利引用网络；将所有数据切分成仅包含目标领域分类号的专利、仅包含技术机会分类号的专利以及同时包含目标领域分类号和技术机会分类号的专利，分别使用拓扑聚类算法将专利聚类成多个簇团，所述簇团定义为技术主题；分析三类节点随时间推移的聚合趋势变化，添加至技术清单中作为一级技术机会的发展态势描述。 8.一种技术机会识别系统，其特征在于，包括：计算机可读存储介质和处理器；所述计算机可读存储介质用于存储可执行指令；所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行权利要求2权　利　要　求　书 2/3 页 3 CN 114817567 A 3

专利 分类号共现网络的构建方法、技术机会识别方法和系统

专利分类号共现网络的构建方法、技术机会识别方法和系统