说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210446111.X (22)申请日 2022.04.26 (71)申请人 浙江理工大 学 地址 310018 浙江省杭州市经济技 术开发 区白杨街道 2号大街9 28号 (72)发明人 方志坚 王露 张华熊 陈超颖  汤哲冲 贾子杰  (74)专利代理 机构 杭州惟臻专利代理事务所 (普通合伙) 33398 专利代理师 陈辉 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/335(2019.01) G06F 16/38(2019.01) (54)发明名称 一种论文作者姓名消歧的方法、 设备及储存 介质 (57)摘要 本发明公开了一种论文作者姓名消歧的方 法、 设备及储存介质, 基于姓名和机构对节点进 行判断, 将姓名和机构相同且距离小于设定的阈 值的节点构建边, 再通过图自动编码器将存在边 的作者信息记录合并, 以得到相关的专家数据 组, 再将专家数据组关联邮箱, 同名不同人的作 者采用的邮箱地址必然不同, 实现同名消歧, 再 通过作者姓名及机构的相同或包含关系且距离 小于设定的阈值来判断相同作者并合并形成专 家数据组, 将该作者使用该邮箱的论文数据合并 成组, 并且能够得到合作的作者的信息, 再将所 有邮箱关联的专家全部记录后再合并机构和作 者姓名及研究学科有重合的专家数据组, 实现由 邮箱关联的专 家数据集, 并实现作者的消歧。 权利要求书2页 说明书9页 附图2页 CN 114707003 A 2022.07.05 CN 114707003 A 1.一种论文作者 姓名消歧方法, 其特 征在于, 包括如下步骤: S1: 创建作者信息数据集和邮箱统计临时表; S2: 对作者信息集中的每项作者属性特 征进行权 重计算; S3: 基于词向量生成作者属性特征的嵌入表示, 通过S2得到的特征权重对嵌入的特征 向量进行加权融合, 得到作者信息集的整体嵌入; S4: 提取邮箱统计临时表中的一个邮箱地址; S5: 根据提取的邮箱地址, 在作者信 息数据集中进行筛选, 获取若干条被选 中的作者信 息记录, 构建图神经网络; 每条作者信息记录作为 其中的一个节点; S6: 在图神经网络中, 将作者 姓名和机构均相同且距离小于阈值的节点构建边; S7: 通过图自动编码器学习作者信息的节点嵌入, 将存在边的作者信息合并为一组专 家数据, 并添加到临时信息表中分配唯一ID, 其余作者信息作为独立专家数据添加到临时 信息表, 分别分配唯一 ID; S8: 各组专家数据通过其包含作者信息关联对应的论文ID, 将关联论文ID后的各组专 家数据输出到专 家资源临时表; S9: 为所述专家资源临时表中的每一组专家数据进行邮箱聚合统计, 邮箱聚合统计方 法包括: 为该组专 家数据中包 含的各个邮箱统计出现频次; 取出现频次最多的邮箱作为该组专家数据对应的邮箱, 并填入该组专家数据的邮箱题 录; 若出现频次最多的邮箱有多个, 则拆分收件人, Email服务器地址, 进行LCS比较, 取得 完全匹配的邮箱作为该组专家数据对应的邮箱, 填入该组专家数据的邮箱题录, 并对其他 题录进行去重; 将所述专 家资源临时表中数据写入专 家资源表, 删除专 家资源临时表; S10: 更新专家资源表, 其中, 所述专家资源表包括关键词、 学科、 期刊和源邮箱题录, 更 新的方法包括: 根据所述专家资源表中每条新增数据的关联论文ID读取文献数据库中对应的关键词、 学科和期刊字段, 通过去重、 分隔后写入 对应题录下; 将S4中提取的邮箱地址写入新增数据的源邮箱题录下, 所述源邮箱用于通过该邮箱关 联对应的专 家数据组的邮箱; S11: 提取 邮箱统计临时表中下一个邮箱地址, 回到S5步骤, 直至遍历整个邮箱统计临 时表; S12: 对专 家资源表进行二次合并, 输出专 家资源表。 2.根据权利要求1所述一种论文作者姓名消歧方法, 其特征在于, 建立作者信 息数据集 的方法包括如下步骤: 从文献数据库中的相关数据中提取作者属性信息并以预设规则进行规范化生成作者 信息数据集, 相关的数据包括: 全局唯一标识符guid、 邮箱EM、 作者姓名AF、 通讯作者RP、 作 者简称AU、 关键词DE、 出 版物PU以及所属机构C1字段 数据; 作者属性信息包括: 全局唯一标识符guid、 邮箱EM、 作者全名Name、 作者简称altName、 机构Organizations、 第二机构Second_Organization、 合著者Co author、 国别Country和组权 利 要 求 书 1/2 页 2 CN 114707003 A 2织部门org anizationdept; 预设规则包括: guid取自文献 数据库guid字段; name取自作者 姓名AF字段; altname取自姓名简称AU字段; organization取自所属机构C1字段; second organization取自所属机构C1字段; coauthor取自所属机构C1字段。 3.根据权利要求1所述一种论文作者姓名消歧方法, 其特征在于, 建立邮箱统计临时表 的方法包括: 从文献数据库中的EM字段、 作 者姓名AF字段、 和通讯作者RP获取数据, 并采用循环遍历 去重后得到所述邮箱统计临 时表, 其中, 当邮箱数量与作者数量一致时, 邮箱与姓名全称AF 一一对应, 当邮箱数量与通讯作者数量 一致时, 邮箱与通讯作者RP一 一对应。 4.根据权利要求3所述一种论文作者姓名消歧方法, 其特征在于, 建立作者信 息数据集 的方法还 包括: 将作者信息数据集中的name题录下 数据小写化。 5.根据权利要求1所述一种论文作者姓名消歧方法, 其特征在于, 判断作者姓名和机构 是否相同的方法包括: S51: 判断作者 姓名和机构字段 是否相同, 若是则判定相同, 若不是则执 行S52; S52: 判断是否存在以下情况: 作者姓名字段存在公共子串且机构字段完全相同, 或者 作者姓名字段相同, 机构字段存在公共子串, 是则判定相同, 否则判断为 不同。 6.根据权利要求1所述一种论文作者姓名消歧方法, 其特征在于, 二次合并的方法包 括: 判断作者姓名 和机构字段是否存在完全重复和存在公共子串, 是则判断为存在相同的 数据记录, 否则再次判断是否存在机构相同或者二级机构存在公共子串的情况, 是则判断 为存在相同的数据记录, 否则判断为不存在相同的数据记录, 对存在相同的数据记录的数 据继续判断是否存在相同的合作者或具有相同的研究领域或发表过同一期刊或具有相同 关键词, 或二级机构包含关系, 不存在则视为不同作者, 存在则合并作者与对应的关联的论 文ID。 7.根据权利要求1所述一种论文作者姓名消歧方法, 其特征在于, 二 次合并的方法还包 括: 若不同的源邮箱对应得到相同的作者且关联论文ID相同, 则合并作者。 8.根据权利要求1所述一种论文作者姓名消歧方法, 其特征在于, 判断两条作者信 息记 录之间距离是否小于设定阈值的方法包括: 选取同一作者的两篇论文作为正样本对, 不同 作者的两篇论文作为负样本对, 构建训练集; 基于预训练模型得到距离阈值m, 当两篇论文 之间的距离小于m, 认为是正样本对, 当两篇 论文之间的距离大于m, 则认为是负 样本对。 9.一种计算机设备, 其特 征在于, 一个或多个处 理器; 存储器, 用于存 储一个或多个程序, 当所述一个或多个程序被所述一个或多个处理器执行时, 使得所述一个或多个处理器 执行如权利要求1至7中任意 一项所述的方法。 10.一种存储有计算机程序的存储介质, 其特征在于, 该程序被处理器执行时实现如权 利要求1至7中任意 一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114707003 A 3

.PDF文档 专利 一种论文作者姓名消歧的方法、设备及储存介质

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种论文作者姓名消歧的方法、设备及储存介质 第 1 页 专利 一种论文作者姓名消歧的方法、设备及储存介质 第 2 页 专利 一种论文作者姓名消歧的方法、设备及储存介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:56:20上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。