说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210754761.0 (22)申请日 2022.06.30 (71)申请人 北京邮电大 学 地址 100876 北京市海淀区西土城路10号 (72)发明人 杜军平 王本直 李文玲 梁美玉  邵蓥侠 寇菲菲  (74)专利代理 机构 北京金咨知识产权代理有限 公司 11612 专利代理师 宋教花 (51)Int.Cl. G06F 40/211(2020.01) G06F 40/258(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06V 10/82(2022.01) G06V 30/416(2022.01) (54)发明名称 跨媒体科研 资源特征提取模 型训练、 特征提 取方法及装置 (57)摘要 本申请提供一种跨媒体科研资源特征提取 模型训练方法、 特征提取方法及装置, 训练方法 包括: 基于跨媒体科研资源数据实时采集系统获 取不同媒体来源的科研资源数据并进行数据结 构化处理; 根据其中的科研资源文本数据对第一 深度学习模 型进行模型训练及优化, 以形成科研 资源文本语义特征提取模型; 并根据科研资源图 像数据对第二深度学习模型进行模型训练及优 化, 以形成科研资源图像语义特征提取模型。 本 申请能够专门适用于科研资源数据的语义特征 学习, 提高跨媒体科研资源数据提取的可靠性、 便捷性及 有效性, 能够提高采用科研 资源数据训 练后的深度学习模型面向科研资源数据进行特 征提取时的表征能力, 提高提取结果的全面性、 多样性、 准确性及可靠性。 权利要求书2页 说明书14页 附图5页 CN 114818660 A 2022.07.29 CN 114818660 A 1.一种跨 媒体科研资源特 征提取模型训练方法, 其特 征在于, 包括: 基于预设的跨媒体科研资源数据实时采集系统, 获取不同媒体来源的科研资源数据并 对所述科研资源数据进行数据结构化处理, 得到对应的训练数据, 其中, 该训练数据包括: 科研资源文本数据和科研资源图像数据; 根据所述科研资源文本数据对预设的第 一深度学习 模型进行模型训练及优化, 以形成 对应的科研资源文本语义特 征提取模型; 以及, 根据所述科研资源图像数据对预设的第二深度学习模型进行模型训练及优化, 以形成对应的科研资源图像 语义特征提取模型。 2.根据权利要求1所述的科研资源特征提取模型训练方法, 其特征在于, 所述跨媒体科 研资源数据实时采集系统为基于Pytho n的数据采集系统; 其中, 所述跨媒体科研资源数据实时采集系统用于根据 科研资源数据的各类媒体来源 分别设置对应的解析规则, 以使 各个爬虫程序分别基于不同的解析规则解析获取自不同类 型的媒体来源的科研资源数据。 3.根据权利要求2所述的科研资源特征提取模型训练方法, 其特征在于, 所述跨媒体科 研资源数据实时采集系统还用于对获取的科研资源数据进 行数据结构化处理及数据清洗, 并将经数据结构化处 理及数据清洗后的科研资源数据作为训练数据进行持久化存 储。 4.根据权利要求1所述的科研资源特征提取模型训练方法, 其特征在于, 所述第 一深度 学习模型包括: BERT模型; 相对应用的, 所述根据 所述科研资源文本数据对预设的第 一深度学习模型进行模型训 练及优化, 以形成对应的科研资源文本语义特 征提取模型, 包括: 自所述科研资源文本数据中提取关联数据, 该关联数据包括: 标题、 摘要中的句子、 以 及所述标题与摘要之间的一 一对应关系; 基于所述关联数据对所述BERT模型进行模型训练及微调, 以形成对应的科研资源文本 语义特征提取模型。 5.根据权利要求4所述的科研资源特征提取模型训练方法, 其特征在于, 所述基于所述 关联数据对所述BERT模型进行模型训练及微调, 包括: 将所述关联 数据作为BERT模型的输入, 以使该BERT模型输出 标题向量和句子向量; 获取所述标题向量和句子向量对应的联合参数组, 其中, 所述联合参数组包括: 所述标 题向量、 所述句子向量、 所述标题向量和句子 向量的差值绝对值、 以及, 所述标题向量和句 子向量之间的较大值; 基于所述联合参数组对所述BERT模型进行关联度训练, 并根据关联度对该BERT模型的 最后一层隐层进行调整。 6.根据权利要求1所述的科研资源特征提取模型训练方法, 其特征在于, 所述第 二深度 学习模型包括: VG GNet网络; 相对应用的, 所述根据 所述科研资源图像数据对预设的第 二深度学习模型进行模型训 练及优化, 以形成对应的科研资源图像 语义特征提取模型, 包括: 将所述科研资源图像数据进行图像尺寸统一化及灰度处理, 以形成对应的灰度图像数 据; 基于所述灰度图像数据对所述VGGNet网络进行模型训练及优化, 以形成对应的科研资权 利 要 求 书 1/2 页 2 CN 114818660 A 2源图像语义特征提取模型。 7.一种科研资源数据语义特 征提取方法, 其特 征在于, 包括: 对目标科研资源数据进行 预处理并确定该目标 科研资源数据的类型; 若所述目标科研资源数据的类型为文本数据, 则将该文本数据输入预设的科研资源文 本语义特征提取模型, 以使该科研资源文本语义特征提取模型输出所述目标科研资源数据 对应的文本语义特 征; 若所述目标科研资源数据的类型为图像数据, 则将该图像数据输入预设的科研资源图 像语义特征提取模型, 以使该科研资源图像语义特征提取模型输出所述目标科研资源数据 对应的图像 语义特征; 其中, 所述科研资源文本语义特征提取模型和所述科研资源图像语义特征提取模型预 先基于权利要求1至 6任一项所述的跨 媒体科研资源特 征提取模型训练方法训练得到 。 8.一种跨 媒体科研资源数据的特 征提取模型训练装置, 其特 征在于, 包括: 数据提取及处理模块, 用于基于预设的跨媒体科研资源数据实时采集系统, 获取不同 媒体来源的科研资源数据并对所述科研资源数据进行数据结构化处理, 得到对应的训练数 据, 其中, 该训练数据包括: 科研资源文本数据和科研资源图像数据; 文本语义特征提取模型训练模块, 用于根据 所述科研资源文本数据对预设的第 一深度 学习模型进行模型训练及优化, 以形成对应的科研资源文本语义特 征提取模型; 图像语义特征提取模型训练模块, 用于根据 所述科研资源图像数据对预设的第 二深度 学习模型进行模型训练及优化, 以形成对应的科研资源图像 语义特征提取模型。 9.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算 机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述 的跨媒体科研资源特征提取模型训练方法, 或者, 实现如权利要求7所述的科研资源数据语 义特征提取方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该计算机程序被 处理器执行时实现如权利要求 1至6任一项 所述的跨媒体科研资源特征提取模型训练方法, 或者, 实现如权利要求7 所述的科研资源数据语义特 征提取方法。权 利 要 求 书 2/2 页 3 CN 114818660 A 3

.PDF文档 专利 跨媒体科研资源特征提取模型训练、特征提取方法及装置

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 跨媒体科研资源特征提取模型训练、特征提取方法及装置 第 1 页 专利 跨媒体科研资源特征提取模型训练、特征提取方法及装置 第 2 页 专利 跨媒体科研资源特征提取模型训练、特征提取方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:15:10上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。