专利基于预训练模型的学术文本语义特征提取方法、系统和存储介质

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210778073.8 (22)申请日 2022.07.04 (65)同一申请的已公布的文献号申请公布号 CN 114841173 A (43)申请公布日 2022.08.02 (73)专利权人北京邮电大学地址 100876 北京市海淀区西土城路10号 (72)发明人杜军平　王岳　薛哲　梁美玉　 (74)专利代理机构北京金咨知识产权代理有限公司 11612 专利代理师宋教花 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/211(2020.01) G06K 9/62(2022.01)(56)对比文件 CN 110852426 A,2020.02.28 US 2021182662 A1,2021.0 6.17 岳增营等.基于语言模型的预训练技术研究综述. 《中文信息学报》 .2021,第3 5卷(第9期),第 15-29页. 审查员孙韬敏 (54)发明名称基于预训练模型的学术文本语义特征提取方法、系统和存储介质 (57)摘要本发明提供一种基于预训练模型的学术文本语义特征提取方法、系统和存储介质，所述方法包括：获取学术资源文本数据；将获得的学术资源文本数据输入至预训练模型，得到多维的学术文本语义特征向量；所述预训练模型是基于多重负样例损失函数对Bert预训练模型进行微调、将微调后的Bert预训练模型作为教师模型通过知识蒸馏来训练学生模型得到的学生预训练模型；将所述多维的学术文本语义特征向量进行降维压缩，输出最终的学术文本语义特征。本发明在提高向量生成质量的同时加快了向量生成的速度，适用于学术大数据场景下的文本向量生成。权利要求书2页说明书9页附图4页 CN 114841173 B 2022.11.18 CN 114841173 B 1.一种基于预训练模型的学术文本语义特征提取方法，其特征在于，该方法包括以下步骤：获取学术资源文本数据；将获得的学术资源文本数据输入至预训练模型，得到多维的学术文本语义特征向量；所述预训练模型是基于多重负样例损失函数对Bert预训练模型进行微调、将微调后的Bert 预训练模型作为教师模型并通过知识蒸馏来训练学生模型得到的学生预训练模型；将所述多维的学术文本语义特征向量进行降维压缩，输出最终的学术文本语义特征向量；所述多重负样例损失函数满足如下公式：；其中，u和v分别表示基于Bert预训练模型得到的句向量序列[ u1, …, ui, …, uK]和 [v1, …, vi, …, vK]，表示句向量和之间的点积，表示在计算句向量之间的点积时使用的预训练模型， K表示向Ber t预训练模型输入的句子对的数量。 2.根据权利要求1所述的方法，其特征在于，所述获取学术资源文本数据包括：通过爬虫技术爬取网页学术资源数据，得到学术资源文本数据；在scrapy爬虫爬取网页学术资源文本数据过程中，针对存在反爬机制的待爬取网页，将待爬取网页的原URL的文档ID进行提取，利用提取出的文档ID构造新的URL，将爬虫引导到无反爬机制的详情页面中，由此获取待爬取网页完整的文档信息。 3.根据权利要求1所述的方法，其特征在于，所述基于多重负样例损失函数对Bert预训练模型进行微调、将微调后的Bert预训练模型作为教师模型并通过知识蒸馏来训练学生模型包括：利用自然语言推理数据集或语义文本相似度基准数据集基于多重负样例损失函数对Bert预训练模型进行微调、利用维基数据集将微调后的Bert预训练模型作为教师模型并通过知识蒸馏来训练学生模型；所述Bert预训练模型的输入为自然语言推理数据集中蕴含关系标签的句子对。 4.根据权利要求1所述的方法，其特征在于，学生模型训练过程中采用的损失函数为 MSE损失函数， MSE损失函数表示为：；其中，表示教师模型生成的句向量，表示学生模型生成的句向量； n表示句向量数量。 5.根据权利要求1 ‑4中任意一项所述的方法，其特征在于，将所述多维的学术文本语义特征向量进行降维压缩包括：利用主成分分析降维算法对所述预训练模型输出的多维的学术文本特征向量进行降维压缩。 6.根据权利要求1 ‑4中任意一项所述的方法，其特征在于，所述学术资源文本数据包括结构化学术资源文本数据和/或非结构化学术资源文本数据。 7.根据权利要求1所述的方法，其特征在于，在将微调后的Bert预训练模型作为教师模权　利　要　求　书 1/2 页 2 CN 114841173 B 2型并通过知识蒸馏来训练学生模型时，所述教师模型包括12层隐藏层，所述教师模型的第 [1,4,7,10]隐藏层被保留作为学生模型的隐藏层。 8.一种基于预训练模型的学术文本语义特征提取系统，该系统包括处理器和存储器，其特征在于，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该系统实现如权利要求 1至7中任一项所述方法的步骤。 9.一种计算机存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。权　利　要　求　书 2/2 页 3 CN 114841173 B 3

专利 基于预训练模型的学术文本语义特征提取方法、系统和存储介质

专利基于预训练模型的学术文本语义特征提取方法、系统和存储介质