专利一种推荐架构下的基于对比学习调优的论文作者消歧方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210060374.7 (22)申请日 2022.01.19 (71)申请人浙江大学地址 310058 浙江省杭州市西湖区余杭塘路866号 (72)发明人庄越挺　胡单春　邵健　鲁伟明　宗畅　 (74)专利代理机构杭州求是专利事务所有限公司 33200 专利代理师郑海峰 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/335(2019.01) G06F 16/38(2019.01) G06N 20/00(2019.01) (54)发明名称一种推荐架构下的基于对比学习调优的论文作者消歧方法 (57)摘要本发明公开了一种推荐架构下的基于对比学习调优的论文作者消歧方法。本发明将论文作者消歧任务抽象为单塔推荐架构下的推荐排序问题。提出基于Wide&Deep推荐架构的排序算法解决基于表示的深度学习模型的语义漂移问题，实现基于多字段多实例注意力机制的深度模型与基于特征工程的线性模型相结合，使模型同时具备较强的泛化能力与记忆能力。此外，注意到真实匹配对之间应存在一定潜在模式的数据特点，针对性提出一种对比学习调优算法，引入对比学习损失，构建对比学习的正负样本，促使模型学习区分真实匹配对的高层次特征。权利要求书3页说明书13页附图2页 CN 114519108 A 2022.05.20 CN 114519108 A 1.一种推荐架构下的基于对比学习调优的论文作者消歧方法，其特征在于，包括以下步骤：步骤1：获取已有的专家档案库G＝(E， P， EP， F)，其中E是专家集合， ei表示第i个专家， P 是已消歧论文集合， EP是专家与已消歧论文的著作权从属关系集合，定义为{epi， j∈EP|专家ei的j篇论文}， F是属性字段集合；步骤2：对于待消歧论文作者对＜p， a＞∈PA，其中PA是待消歧论文作者对集合， p， a分别是论文和作者姓名，首先根据作者姓名a在专家档案库G中找到相关的候选专家实体集合 CN，最终的候选集合C＝CN∪NIL，其中CN为专家档案库中匹配到的专家实体集合， NIL为不可链接指称项，代指不存在于已有专家档案库中的专家实体；将真实匹配专家记为c*，则c*∈ C；步骤3：对于每个候选专家c∈C，将其发表的论文信息与待消歧论文作者对信息分别通过Wide模型和Deep 模型得到浅层特征与深层特征的相似度向量表示，并拼接获得最终的相似度向量表示Simc；步骤4：应用打分模块对每一个候选实体c与待消歧论文作者对之间的相似度进行打分，获得分数Sc： Sc＝FC(Simc) 步骤5：分数Sc最高的候选实体c被认为是匹配实体。 2.根据权利要求1所述的推荐架构下的基于对比学习调优的论文作者消歧方法，其特征在于，所述的步骤3)中，所述的Wide模型为基于特征工程的线性模型，所述Deep模型为基于多字段多实例的消歧模型。 3.根据权利要求1所述的推荐架构下的基于对比学习调优的论文作者消歧方法，其特征在于，所述的步骤3)具体为：步骤3‑1：对于Wide模型，首先利用其内的浅层特征构建模块构建简单的线性特征X(＜ p， a＞， c)＝[ X1(＜p， a＞， c)， ...， Xn(＜p， a＞， c)]，其中， n为Wide模型使用的浅层特征数；然后通过两层线性层MLP生成浅层相似度向量表示 χ(＜p， a＞， c)： χ(＜p， a＞， c)＝MLP(X(＜p， a＞， c) ) 步骤3‑2： Deep模型基于不同属性字段与不同论文对消歧结果的影响，分别建模全局相似度编码模块与局部相似度编码模块，分别获得全局相似度向量表示和局部相似度向量表示，并融合获得深层相似度向量表示步骤3‑3：获得浅层相似度向量表示 χ(＜p， a＞， c)与深层相似度向量表示后，拼接获得相似度向量表示Simc： 4.根据权利要求3所述的推荐架构下的基于对比学习调优的论文作者消歧方法，其特征在于，所述的步骤3 ‑2具体包括如下步骤：步骤3‑2‑1：全局相似度编码模块利用候选专家c的所有论文，根据属性字段f∈F分组进行相似度计算，并使用注意力机制体现不同字段对相似度向量表示的影响，计算全局相似度向量表示φ(＜p， a＞， c)；步骤3‑2‑2：局部相似度编码模块基于专家发表的论文有多个主题的假设，认为待消歧权　利　要　求　书 1/3 页 2 CN 114519108 A 2论文只与部分候选专家论文强相关，而剩余论文弱相关甚至不相关，因此单独对待消歧论文与候选专家每一篇论文进行相似度编码；最终同样使用注意力机制体现不同论文的影响，计算局部相似度向量表示 ψ(＜p， a＞， c)；步骤3‑2‑3：获得全局相似度向量表示与局部相似度向量表示后，拼接并通过3层线性层获得深层相似度向量表示其中表示拼接操作： 5.根据权利要求4所述的推荐架构下的基于对比学习调优的论文作者消歧方法，其特征在于，所述的步骤3 ‑2‑1具体为：首先对于每种属性f，构建基于token的相似度矩阵SimMf，其大小为Np， f×Mc， f，其中Np， f 是论文p的属性f的token数目， Mc， f是候选专家c的属性f的token数目，第n行第m列的元素矩阵元其中分别为论文p在属性f第n个token的词向量、候选专家实体c在属性f第m个to ken的词向量，均由W ord2Vec获得；然后对属性f的相似度矩阵应用RBF核聚合函数，得到一个固定维度K的向量表示φf(＜ p， a＞， c)： RBF(SimMf， t)＝{RBF1(SimMf， t)， ...， RBFK(SimMf， t)}，其中 μk， σk分别是第k个核的均值与方差；最后利用注意力机制获得全局相似度向量表示φ(＜p， a＞， c)，其中wglobal∈R1×K、 bglobal∈R1分别是用于计算注意力分数的权重参数与偏置参数： 6.根据权利要求4所述的推荐架构下的基于对比学习调优的论文作者消歧方法，其特征在于，所述的步骤3 ‑2‑2具体为：对候选专家c的每一篇论文，应用全局相似度编码模块，计算这篇论文相对于待消歧论文作者对的局部相似度向量表示 ψi(＜p， a＞， c)。应用注意力机制计算注意力权重βi，以此来表示每篇论文的相关程度，并加权得到局部相似度向量表示ψ(＜p， a＞， c)，其中wlocal∈R1×K、 blocal∈R1分别是用于计算注意力分数的权重参数与偏置参数，在实验过程中wlocal、 blocal为wglobal、 bglobal：权　利　要　求　书 2/3 页 3 CN 114519108 A 3

专利 一种推荐架构下的基于对比学习调优的论文作者消歧方法

专利一种推荐架构下的基于对比学习调优的论文作者消歧方法