专利基于多视角融合的专家画像构建方法及装置

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111648377.4 (22)申请日 2021.12.2 9 (71)申请人淮阴工学院地址 223005 江苏省淮安市经济技术开发区枚乘东路1号 (72)发明人李翔　张宁　谢乾　朱全银　高尚兵　丁行硕　束玮　张豪杰　丁婧娴　张曼　费晶茹　洪玉昆　杨秋实　徐伟　 (74)专利代理机构淮安市科文知识产权事务所 32223 代理人李锋 (51)Int.Cl. G06F 16/35(2019.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于多视角融合的专家画像构建方法及装置 (57)摘要本发明公开了基于多视角融合的专家画像构建方法及装置。首先使用K ‑means对专家数据集D1进行聚类及预处理后得到样本集D2，再将D2 划分为多个样本子集，每个样本子集代表一种信息，分别选择BERT、 BiGRU及CNN三种基分类器对样本集D2进行分类，得到不同的分类结果；接着，根据三种基分类器中的分类结果对基分类器赋权值，根据权值对分类器的分类结果使用加权投票法进行集成，计算出所有类别的总票数，根据实际需求选取分类结果；最后，获得模型最终的集成结果，使用词云图将分类结果可视化，进而构建专家画像。本发明提供了基于多视角融合的专家画像构建方法及装置，能够有效地融合不同分类的结果，解决专家画像建模中标签化建模不全面的问题。权利要求书2页说明书8页附图7页 CN 114398485 A 2022.04.26 CN 114398485 A 1.基于多视角融合的专家画像构建方法，其特征在于，包括如下步骤：步骤1：使用K ‑means对专家数据集D1进行聚类并预处理得到样本集D2，再将D2划分多个样本子集，每个样本子集代表一种信息；步骤2：使用BERT模型，将样本集D2作为模型的输入，对其进行分类；步骤3：使用BiGRU算法，将得到的特征序列作为算法的输入，对其进行分类；步骤4：使用CN N算法，将得到的特征序列作为算法的输入，对其进行分类；步骤5：首先根据三种基分类器中的分类结果对基分类器赋权值，然后根据权值对分类器的分类结果使用加权投票法进行集成，计算出所有类别的总票数，最后根据实际需求选取分类结果；步骤6：三种基分类器的分类集成结果，获得模型的标签抽取，进而构建专家画像。 2.根据权利要求1所述的基于多视角融合的专家画像构建方法，其特征在于，所述步骤 1的具体方法为：步骤1.1：使用K ‑means对专家数据集D1进行聚类，得到N个聚类点簇；步骤1.2：定义Data为单个待清洗专家数据，定义id,lable,content分别为数据的序号、标签和内容，并且满足关系Data＝{id,lable,co ntent}；步骤1.3：定义D1为待清洗专家数据集， D1＝{Data1,Data2,…,Dataa,…,Datalen(D1)}， Dataa为D1中第a个待清洗信息数据，其中， len(D1)为D1中数据数量，变量a∈[1,len(D1)]；步骤1.4：对专家数据集D1中的数据进行去重和去空操作；步骤1.5：得到清洗后的数据集D2 ＝{d1,d2,…,db,…,dlen(D2)}， db为D2中第b个待处理信息数据，其中， len(D2)为D2中数量，变量b∈[1,len(D2)]；步骤1.6：对D2划分为多个样本子集，每个样本子集代表专家不同信息，即D2＝{D21, D22,…,D2N}。 3.根据权利要求1所述的基于多视角融合的专家画像构建方法，其特征在于，所述步骤 2的具体方法为：步骤2.1：定义样本集D2＝{d1,d2,…,db,…,dlen(D2)}，将待处理文本内容db固定为统一长度Lmax；步骤2.2：定义循环变量 i，且i赋初值为1；步骤2.3：如果 i≤len(T)则跳转到步骤2.4，否则跳转到步骤2.7；步骤2.4：定义len(Ti)为文本中第i个文本信息的长度，如果len(Ti)+2≤Lmax则补0后跳转下一步，否则截取文本前Lmax个单位，跳转下一步；步骤2.5：建立预训练模型BERT，将样本集传入BERT模型中，获取文本的特征向量T1；步骤2.6： i ＝i+1，跳转到步骤2.3；步骤2.7：结束循环，输出全部特征向量序列T1＝{T1,T2,…,Tc,…,Tlen(T)}；步骤2.8：将特征向量序列T1作为全连接层的输入进行文本分类，得到分类结果C1。 4.根据权利要求1所述的基于多视角融合的专家画像构建方法，其特征在于，所述步骤 3的具体方法为：步骤3.1：构建双向门控循环神经网络，传入特征向量序列T1；步骤3.2：定义循环变量j和最大时刻M，且j赋初值为1；步骤3.3：如果j≤ M则跳转到步骤3.4，否则跳转到步骤3.6；权　利　要　求　书 1/2 页 2 CN 114398485 A 2步骤3.4：使用双向门控循环神经网络计算当前时刻的输出结果为ht，跳转下一步；步骤3.5： j＝j+1，跳转到步骤3.3；步骤3.6：结束循环，得到全部时刻的输出向量T2＝{h1,h2,…,ht,…,hM}；步骤3.7：将特征向量序列T2作为全连接层的输入进行文本分类，得到分类结果C2。 5.根据权利要求1所述的基于多视角融合的专家画像构建方法，其特征在于，所述步骤 4的具体方法为：步骤4.1：构建卷积神经网络，传入特征向量序列T1；步骤4.2：定义循环变量 k，且k赋初值为1；步骤4.3：如果 k≤len(T)则跳转到步骤4.4，否则跳转到步骤4.6；步骤4.4：对传入的特征向量进行卷积操作，通过最大池化的方法提取值最大的特征r；步骤4.5： k ＝k+1，跳转到步骤4.3；步骤4.6：结束循环，得到所有池化后的向量T3＝{r1,r2,…,rlen(T)}；步骤4.7：将向量T3作为全连接层的输入进行文本分类，得到分类结果C 3。 6.根据权利要求1所述的基于多视角融合的专家画像构建方法，其特征在于，所述步骤 5的具体方法为：步骤5.1：定义C＝{C1,C2,C 3}为三种基分类器最终的输出结果；步骤5.2：根据三种基分类器中的分类结果对单分类器赋权值αz，其中， z＝1,2,3；步骤5.3：对分类结果进行统计，每种单分类器对分类结果的筛选作为对该类别投一票；步骤5.4：定义p为第p个类别， n为第n个分类器，且p， n赋初值为1；步骤5.5：如果满足n≤ 3，则跳转到下一步，否则跳转到步骤5.1 1；步骤5.6：设第p个类别在第n个分类器的投票数为Bnp，第p个类别的投票总数为Tp，其中， p＝1,2, …,P；步骤5.7：如果满足p≤P，则跳转到下一步，否则跳转到步骤5.10；步骤5.8：根据计算，可得第p个类别的投票总数为步骤5.9： p＝p+1，跳转到步骤5.7；步骤5.10： n ＝n+1，跳转到步骤5.5；步骤5.11：计算出所有类别的投票总数，根据实际需求选取Tp≥l的全部分类结果，其中， l＝1,2,…,3(1+3)/2。 7.根据权利要求1所述的基于多视角融合的专家画像构建方法，其特征在于，所述步骤 6的具体方法为：步骤6.1：将选择出的分类结果作为最终分类结果；步骤6.2：将模型保存封装，作为专家画像的标签抽取方法；步骤6.3：使用词云图将分类结果进行可视化；步骤6.4：完成专家画像的构建。 8.基于多视角融合的专家画像构建装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被加载至处理器时实现根据权利要求1 ‑7任一项所述的基于多视角融合的专家画像构建方法。权　利　要　求　书 2/2 页 3 CN 114398485 A 3

专利 基于多视角融合的专家画像构建方法及装置

专利基于多视角融合的专家画像构建方法及装置