说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210060374.7 (22)申请日 2022.01.19 (71)申请人 浙江大学 地址 310058 浙江省杭州市西湖区余杭塘 路866号 (72)发明人 庄越挺 胡单春 邵健 鲁伟明  宗畅  (74)专利代理 机构 杭州求是专利事务所有限公 司 33200 专利代理师 郑海峰 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/335(2019.01) G06F 16/38(2019.01) G06N 20/00(2019.01) (54)发明名称 一种推荐架构下的基于对比学习调优的论 文作者消歧方法 (57)摘要 本发明公开了一种推荐架构下的基于对比 学习调优的论文作者消歧方法。 本发 明将论文作 者消歧任务抽象为单塔推荐架构下的推荐排序 问题。 提出基于Wide&Deep推荐架构的排序算法 解决基于表 示的深度学习模型的语义漂移问题, 实现基于多字段多实例注意力机制的深度模型 与基于特征工程的线性模型相结合, 使模型同时 具备较强的泛化能力与记忆能力。 此外, 注意到 真实匹配对之间应存在一定潜在模式的数据特 点, 针对性提出一种对比学习调优算法, 引入对 比学习损失, 构建对比学习的正负样本, 促使模 型学习区分 真实匹配对的高层次特 征。 权利要求书3页 说明书13页 附图2页 CN 114519108 A 2022.05.20 CN 114519108 A 1.一种推荐架构下的基于对比学习调优的论文作者消歧方法, 其特征在于, 包括以下 步骤: 步骤1: 获取已有的专家档 案库G=(E, P, EP, F), 其中E是专家集合, ei表示第i个专家, P 是已消歧论文集合, EP是专家与已消歧论文的著作权从属关系集合, 定义为{epi, j∈EP|专 家ei的j篇论文}, F是属性字段集 合; 步骤2: 对于待消歧论文作者对<p, a>∈PA, 其中PA是待消歧论文作者对集合, p, a分 别是论文和作者姓名, 首先根据作者姓名a在专家档案库G中找到相关的候选专家实体集合 CN, 最终的候选集合C=CN∪NIL, 其中CN为专家档案库中匹配到的专家实体集合, NIL为不可 链接指称项, 代指不存在于已有专家档 案库中的专家实体; 将真实匹配专家记为c*, 则c*∈ C; 步骤3: 对于每个候选专家c∈C, 将其发表的论文信息与待消歧论文作者对信息分别通 过Wide模 型和Deep 模型得到浅层特征与深层特征的相似度向量表 示, 并拼接获得最终的相 似度向量表示Simc; 步骤4: 应用打分模块对每一个候选实体c与待消歧论文作者对之间的相似度进行打 分, 获得分数Sc: Sc=FC(Simc) 步骤5: 分数Sc最高的候选实体c被认为是匹配实体。 2.根据权利要求1所述的推荐架构下的基于对比学习调优的论文作者消歧方法, 其特 征在于, 所述的步骤3)中, 所述的Wide模 型为基于特征工程的线性模 型, 所述Deep模 型为基 于多字段多实例的消歧模型。 3.根据权利要求1所述的推荐架构下的基于对比学习调优的论文作者消歧方法, 其特 征在于, 所述的步骤3)具体为: 步骤3‑1: 对于Wide模型, 首先利用其 内的浅层 特征构建模块构 建简单的线性特征X(< p, a>, c)=[ X1(<p, a>, c), ..., Xn(<p, a>, c)], 其中, n为Wide模型使用的浅层特征数; 然后通过两层线性层MLP生成浅层相似度向量表示 χ(<p, a>, c): χ(<p, a>, c)=MLP(X(<p, a>, c) ) 步骤3‑2: Deep模型基于不同属性字段与 不同论文对消歧结果的影响, 分别建模全局相 似度编码模块与局部相似度编 码模块, 分别获得全局相似度向量表示和局部相似度向量表 示, 并融合获得深层相似度向量表示 步骤3‑3: 获得浅层相似度向量表示 χ(<p, a>, c)与深层相似度向量表示 后, 拼接获得相似度向量表示Simc: 4.根据权利要求3所述的推荐架构下的基于对比学习调优的论文作者消歧方法, 其特 征在于, 所述的步骤3 ‑2具体包括如下步骤: 步骤3‑2‑1: 全局相似度编码模块利用候选专家c的所有论文, 根据属性字段f∈F分组 进行相似度计算, 并使用注意力机制体现不同字段对相似度向量表示的影响, 计算全局相 似度向量表示φ(<p, a>, c); 步骤3‑2‑2: 局部相似度编码模块基于专家发表的论文有多个主题的假设, 认为待消歧权 利 要 求 书 1/3 页 2 CN 114519108 A 2论文只与部分候选专家论文强相关, 而剩余论文弱相关甚至不相关, 因此单独对待消歧论 文与候选专家每一篇论文进行相似度编码; 最终同样使用注意力机制体现不同论文的影 响, 计算局部相似度向量表示 ψ(<p, a>, c); 步骤3‑2‑3: 获得全局相似度向量表示与局部相似度向量表示后, 拼接并通过3层线性 层获得深层相似度向量表示 其中 表示拼接操作: 5.根据权利要求4所述的推荐架构下的基于对比学习调优的论文作者消歧方法, 其特 征在于, 所述的步骤3 ‑2‑1具体为: 首先对于每种属性f, 构建基于token的相似度矩阵SimMf, 其大小为Np, f×Mc, f, 其中Np, f 是论文p的属性f的token数目, Mc, f是候选专家c的属性f的token数目, 第n行第m列的元素矩 阵元 其中 分别为论文p在属性f第n个token的词向量、 候 选专家实体c在属性f第m个to ken的词向量, 均由W ord2Vec获得; 然后对属性f的相似度矩阵应用RBF核聚合函数, 得到一个固定维度K的向量表示φf(< p, a>, c): RBF(SimMf, t)={RBF1(SimMf, t), ..., RBFK(SimMf, t)}, 其中 μk, σk分别是第k个核的均值与方差; 最后利用注意力机制获得全局相似度向量表示φ(<p, a>, c), 其中wglobal∈R1×K、 bglobal∈R1分别是用于计算注意力分数的权 重参数与偏置参数: 6.根据权利要求4所述的推荐架构下的基于对比学习调优的论文作者消歧方法, 其特 征在于, 所述的步骤3 ‑2‑2具体为: 对候选专家c的每一篇论文, 应用全局相似度编码模块, 计算这篇论文相对于待消歧论 文作者对的局部相似度向量表示 ψi(<p, a>, c)。 应用注意力机制计算注意力权重βi, 以此来表示每篇论文的相关程度, 并加权得到局部 相似度向量表示ψ(<p, a>, c), 其中wlocal∈R1×K、 blocal∈R1分别是用于计算注意力分数的 权重参数与偏置参数, 在实验过程中wlocal、 blocal为wglobal、 bglobal: 权 利 要 求 书 2/3 页 3 CN 114519108 A 3

.PDF文档 专利 一种推荐架构下的基于对比学习调优的论文作者消歧方法

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种推荐架构下的基于对比学习调优的论文作者消歧方法 第 1 页 专利 一种推荐架构下的基于对比学习调优的论文作者消歧方法 第 2 页 专利 一种推荐架构下的基于对比学习调优的论文作者消歧方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:54:01上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。