说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111648377.4 (22)申请日 2021.12.2 9 (71)申请人 淮阴工学院 地址 223005 江苏省淮安市经济技 术开发 区枚乘东路1号 (72)发明人 李翔 张宁 谢乾 朱全银  高尚兵 丁行硕 束玮 张豪杰  丁婧娴 张曼 费晶茹 洪玉昆  杨秋实 徐伟  (74)专利代理 机构 淮安市科文知识产权事务所 32223 代理人 李锋 (51)Int.Cl. G06F 16/35(2019.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于多视角融合的专家画像构建方法及装 置 (57)摘要 本发明公开了基于多视角融合的专家画像 构建方法及装置。 首先使用K ‑means对专家数据 集D1进行聚类及预处理后得到样本集D2, 再将D2 划分为多个样本子集, 每个样 本子集代表一种信 息, 分别选择BERT、 BiGRU及CNN三种基分类器对 样本集D2进行分类, 得到不同的分类结果; 接着, 根据三种基分类器中的分类结果对基分类器赋 权值, 根据权值对分类器的分类结果使用加权投 票法进行集成, 计算出所有类别的总票数, 根据 实际需求选取分类结果; 最后, 获得模型最终的 集成结果, 使用词云图将分类结果可视化, 进而 构建专家画 像。 本发明提供了基于多视角融合的 专家画像构建方法及装置, 能够 有效地融合不同 分类的结果, 解决专家画像建模中标签化建模不 全面的问题。 权利要求书2页 说明书8页 附图7页 CN 114398485 A 2022.04.26 CN 114398485 A 1.基于多视角融合的专 家画像构建方法, 其特 征在于, 包括如下步骤: 步骤1: 使用K ‑means对专家数据集D1进行聚类并预处理得到样本集D2, 再将D2划分多 个样本子集, 每个样本子集代表一种信息; 步骤2: 使用BERT模型, 将 样本集D2作为模型的输入, 对其进行分类; 步骤3: 使用BiGRU算法, 将得到的特 征序列作为算法的输入, 对其进行分类; 步骤4: 使用CN N算法, 将得到的特 征序列作为算法的输入, 对其进行分类; 步骤5: 首先根据三种基分类器 中的分类结果对基分类器赋权值, 然后根据权值对分类 器的分类结果使用加权投票法进行集成, 计算出所有类别的总票数, 最后根据实际需求选 取分类结果; 步骤6: 三种基分类 器的分类集成结果, 获得模型的标签抽取, 进 而构建专 家画像。 2.根据权利要求1所述的基于多视角融合的专家画像构建方法, 其特征在于, 所述步骤 1的具体方法为: 步骤1.1: 使用K ‑means对专 家数据集D1进行聚类, 得到N个聚类点簇; 步骤1.2: 定义Data为单个待清洗专家数据, 定义id,lable,content分别为数据的序 号、 标签和内容, 并且 满足关系Data={id,lable,co ntent}; 步骤1.3: 定义D1为待清洗专家数据集, D1={Data1,Data2,…,Dataa,…,Datalen(D1)}, Dataa为D1中第a个待清洗信息数据, 其中, len(D1)为D1中数据数量, 变量a∈[1,len(D1)]; 步骤1.4: 对专 家数据集D1中的数据进行去重和去空操作; 步骤1.5: 得到清洗后的数据集D2 ={d1,d2,…,db,…,dlen(D2)}, db为D2中第b个待处理信 息数据, 其中, len(D2)为D2中数量, 变量b∈[1,len(D2)]; 步骤1.6: 对D2划分为多个样本子集, 每个样本子集代表专家不同信息, 即D2={D21, D22,…,D2N}。 3.根据权利要求1所述的基于多视角融合的专家画像构建方法, 其特征在于, 所述步骤 2的具体方法为: 步骤2.1: 定义样本集D2={d1,d2,…,db,…,dlen(D2)}, 将待处理文本内容db固定为统一 长度Lmax; 步骤2.2: 定义循环变量 i, 且i赋初值 为1; 步骤2.3: 如果 i≤len(T)则跳转到步骤2.4, 否则跳转到步骤2.7; 步骤2.4: 定义len(Ti)为文本中第i个文本信息的长度, 如果len(Ti)+2≤Lmax则补0后跳 转下一步, 否则截取文本前Lmax个单位, 跳转下一 步; 步骤2.5: 建立预训练模型BERT, 将 样本集传入BERT模型中, 获取文本的特 征向量T1; 步骤2.6: i =i+1, 跳转到步骤2.3; 步骤2.7: 结束循环, 输出全部特 征向量序列T1={T1,T2,…,Tc,…,Tlen(T)}; 步骤2.8: 将特 征向量序列T1作为全连接层的输入进行文本分类, 得到分类结果C1。 4.根据权利要求1所述的基于多视角融合的专家画像构建方法, 其特征在于, 所述步骤 3的具体方法为: 步骤3.1: 构建双向门控循环神经网络, 传入特 征向量序列T1; 步骤3.2: 定义循环变量j和最大时刻M, 且j赋初值 为1; 步骤3.3: 如果j≤ M则跳转到步骤3.4, 否则跳转到步骤3.6;权 利 要 求 书 1/2 页 2 CN 114398485 A 2步骤3.4: 使用双向门控循环神经网络计算当前时刻的输出 结果为ht, 跳转下一 步; 步骤3.5: j=j+1, 跳转到步骤3.3; 步骤3.6: 结束循环, 得到全部时刻的输出向量T2={h1,h2,…,ht,…,hM}; 步骤3.7: 将特 征向量序列T2作为全连接层的输入进行文本分类, 得到分类结果C2。 5.根据权利要求1所述的基于多视角融合的专家画像构建方法, 其特征在于, 所述步骤 4的具体方法为: 步骤4.1: 构建卷积神经网络, 传入特 征向量序列T1; 步骤4.2: 定义循环变量 k, 且k赋初值 为1; 步骤4.3: 如果 k≤len(T)则跳转到步骤4.4, 否则跳转到步骤4.6; 步骤4.4: 对传入的特 征向量进行 卷积操作, 通过最大池化的方法提取值 最大的特 征r; 步骤4.5: k =k+1, 跳转到步骤4.3; 步骤4.6: 结束循环, 得到所有池化后的向量T3={r1,r2,…,rlen(T)}; 步骤4.7: 将向量T3作为全连接层的输入进行文本分类, 得到分类结果C 3。 6.根据权利要求1所述的基于多视角融合的专家画像构建方法, 其特征在于, 所述步骤 5的具体方法为: 步骤5.1: 定义C={C1,C2,C 3}为三种基分类 器最终的输出 结果; 步骤5.2: 根据三种基分类 器中的分类结果对单分类 器赋权值αz, 其中, z=1,2,3; 步骤5.3: 对分类结果进行统计, 每种单分类器对分类结果的筛选作为对该类别投一 票; 步骤5.4: 定义p为第p个 类别, n为第n个分类 器, 且p, n赋初值 为1; 步骤5.5: 如果满足n≤ 3, 则跳转到下一 步, 否则跳转到步骤5.1 1; 步骤5.6: 设第p个类别在第n个分类器的投票数为Bnp, 第p个类别的投票总数为Tp, 其 中, p=1,2, …,P; 步骤5.7: 如果满足p≤P, 则跳转到下一 步, 否则跳转到步骤5.10; 步骤5.8: 根据计算, 可 得第p个类别的投票总数为 步骤5.9: p=p+1, 跳转到步骤5.7; 步骤5.10: n =n+1, 跳转到步骤5.5; 步骤5.11: 计算出所有类别的投票总数, 根据实际需求选取Tp≥l的全部分类结果, 其 中, l=1,2,…,3(1+3)/2。 7.根据权利要求1所述的基于多视角融合的专家画像构建方法, 其特征在于, 所述步骤 6的具体方法为: 步骤6.1: 将选择 出的分类结果作为 最终分类结果; 步骤6.2: 将模型保存封装, 作为专 家画像的标签抽取 方法; 步骤6.3: 使用词云图将分类结果进行 可视化; 步骤6.4: 完成专 家画像的构建。 8.基于多视角融合的专家画像构建装置, 包括存储器、 处理器及存储在存储器上并可 在处理器上运行 的计算机程序, 其特征在于, 所述计算机程序被加载至处理器时实现根据 权利要求1 ‑7任一项所述的基于多视角融合的专 家画像构建方法。权 利 要 求 书 2/2 页 3 CN 114398485 A 3

.PDF文档 专利 基于多视角融合的专家画像构建方法及装置

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多视角融合的专家画像构建方法及装置 第 1 页 专利 基于多视角融合的专家画像构建方法及装置 第 2 页 专利 基于多视角融合的专家画像构建方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 20:44:01上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。