(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210778073.8
(22)申请日 2022.07.04
(65)同一申请的已公布的文献号
申请公布号 CN 114841173 A
(43)申请公布日 2022.08.02
(73)专利权人 北京邮电大 学
地址 100876 北京市海淀区西土城路10号
(72)发明人 杜军平 王岳 薛哲 梁美玉
(74)专利代理 机构 北京金咨知识产权代理有限
公司 11612
专利代理师 宋教花
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/211(2020.01)
G06K 9/62(2022.01)(56)对比文件
CN 110852426 A,2020.02.28
US 2021182662 A1,2021.0 6.17
岳增营等.基 于语言模型的预训练技 术研究
综述. 《中文信息学报》 .2021,第3 5卷(第9期),第
15-29页.
审查员 孙韬敏
(54)发明名称
基于预训练模型的学术文本语义特征提取
方法、 系统和存 储介质
(57)摘要
本发明提供一种基于预训练模型的学术文
本语义特征提取方法、 系统和存储介质, 所述方
法包括: 获取学术资源文本数据; 将获得的学术
资源文本 数据输入至预训练模型, 得到多维的学
术文本语义特征向量; 所述预训练模 型是基于多
重负样例损失函数对Bert预训练模型进行微调、
将微调后的Bert预训练模型作为教师模型通过
知识蒸馏来训练学生模型得到的学生预训练模
型; 将所述多维的学术文本语义特征向量进行降
维压缩, 输出最终的学术文本语义特征。 本发明
在提高向量生成质量的同时加快了向量生成的
速度, 适用于学术大数据场景下的文本向量生
成。
权利要求书2页 说明书9页 附图4页
CN 114841173 B
2022.11.18
CN 114841173 B
1.一种基于预训练模型的学术文本语义特征提取方法, 其特征在于, 该方法包括以下
步骤:
获取学术资源文本数据;
将获得的学术资源文本数据输入至预训练模型, 得到多维的学术文本语义特征向量;
所述预训练模 型是基于多重负样例损失函数对Bert预训练模 型进行微调、 将微调后的Bert
预训练模型作为教师模型并通过知识蒸馏来训练学生模型 得到的学生预训练模型;
将所述多维的学术文本语义特征向量进行降维压缩, 输出最终的学术文本语义特征向
量;
所述多重负 样例损失函数满足如下公式:
;
其中,u和v分别表示基于Bert预训练模型得到的句向量序列[ u1, …, ui, …, uK]和
[v1, …, vi, …, vK],
表示句向量
和
之间的点积,
表示在计算句向量之
间的点积时使用的预训练模型, K表示向Ber t预训练模型输入的句子对的数量。
2.根据权利要求1所述的方法, 其特征在于, 所述获取学术资源文本数据包括: 通过爬
虫技术爬取网页学术资源数据, 得到学术资源文本数据;
在scrapy爬虫爬取网页学术资源文本数据过程中, 针对存在反爬机制的待爬取网页,
将待爬取网页的原URL的文档ID进行提取, 利用提取出的文档ID构造新的URL, 将爬虫引导
到无反爬 机制的详情页面中, 由此获取待爬取网页完整的文档 信息。
3.根据权利要求1所述的方法, 其特征在于, 所述基于多重负样例损失函数对Bert预训
练模型进行微调、 将微调后的Bert预训练模 型作为教师模 型并通过知识蒸馏 来训练学生模
型包括: 利用自然语言推理数据集或语义文本相似度基准数据集基于多重负样例损失函数
对Bert预训练模型进行微调、 利用维基数据集将微调后的Bert预训练模 型作为教师模型并
通过知识蒸馏来训练学生模型;
所述Bert预训练模型的输入为自然语言推理数据集中蕴含关系标签的句子对。
4.根据权利要求1所述的方法, 其特征在于, 学生模型训练过程中采用的损失函数为
MSE损失函数, MSE损失函数表示 为:
;
其中,
表示教师模型生成的句向量,
表示学生模型生成的句向量; n表示句向量数
量。
5.根据权利要求1 ‑4中任意一项所述的方法, 其特征在于, 将所述多维的学术文本语义
特征向量进行降维压缩包括: 利用主成分分析降维算法对所述预训练模型输出的多维的学
术文本特 征向量进行降维压缩。
6.根据权利要求1 ‑4中任意一项所述的方法, 其特征在于, 所述学术资源文本数据包括
结构化学术资源文本数据和/或非结构化学术资源文本数据。
7.根据权利要求1所述的方法, 其特征在于, 在将微调后的Bert预训练模型作为教师模权 利 要 求 书 1/2 页
2
CN 114841173 B
2型并通过知识蒸馏来训练学生模型时, 所述教师模型包括12层隐藏层, 所述教师模型 的第
[1,4,7,10]隐藏层被保留作为学生模型的隐藏层。
8.一种基于预训练模型的学术文本语义特征提取系统, 该系统包括处理器和存储器,
其特征在于, 所述存储器中存储有计算机指令, 所述处理器用于执行所述存储器中存储的
计算机指 令, 当所述计算机指 令被处理器执行时该系统实现如权利要求 1至7中任一项所述
方法的步骤。
9.一种计算机存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器执行时
实现如权利要求1至7中任一项所述方法的步骤。权 利 要 求 书 2/2 页
3
CN 114841173 B
3
专利 基于预训练模型的学术文本语义特征提取方法、系统和存储介质
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:12:27上传分享