说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210592235.9 (22)申请日 2022.05.27 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 卢宇翔 刘佳祥 冯仕堃 黄世维  (74)专利代理 机构 北京英赛 嘉华知识产权代理 有限责任公司 1 1204 专利代理师 王达佐 马晓亚 (51)Int.Cl. G06F 40/30(2020.01) G06F 16/33(2019.01) G06K 9/62(2022.01) (54)发明名称 基于级联的文本匹配模 型的知识蒸馏方法、 装置及产品 (57)摘要 本公开提供了一种基于级联的文本匹配模 型的知识蒸馏方法、 装置、 电子设备、 存储介质及 计算机程序产品, 涉及人工智 能技术领域, 具体 涉及深度学习技术, 可用于搜索、 推荐场景下。 具 体实现方案为: 在根据训练样本集训练教师模 型、 助教模型和学生模型的过程中, 确定教师模 型输出的第一匹配度、 助教模型输出的第二匹配 度和学生模 型输出的第三匹配度; 确定训练样本 集中的预设数量的训练样本对应的第一匹配度 的第一分布信息, 对应的第二匹配度的第二分布 信息和对应的第三匹配度的第三 分布信息; 根据 第一分布信息、 第二分布信息和第三分布信息, 在助教模型的辅助下, 对教师模型进行知识蒸 馏, 得到训练后的学生模型。 本公开提高了得到 的学生模型的准确度。 权利要求书3页 说明书14页 附图9页 CN 114818735 A 2022.07.29 CN 114818735 A 1.一种基于级联的文本匹配模型的知识蒸馏方法, 包括: 在根据训练样本集训练教师模型、 助教模型和学生模型的过程中, 对于输入的训练样 本中的样本文本对, 确定所述教师模型输出 的第一匹配度、 所述助教模型输出 的第二匹配 度和所述学生模型输出的第三匹配度; 确定所述训练样本集中的预设数量的训练样本对应的第 一匹配度的第 一分布信 息, 对 应的第二匹配度的第二分布信息和对应的第三匹配度的第三分布信息; 根据所述第一分布信息、 所述第二分布信息和所述第三分布信息, 在所述助教模型的 辅助下, 对所述教师模型进行知识蒸馏, 得到训练后的学生模型。 2.根据权利要求1所述的方法, 其中, 所述根据所述第一分布信息、 所述第二分布信息 和所述第三分布信息, 在所述助教模型的辅助下, 对所述 教师模型进 行知识蒸馏, 得到训练 后的学生模型, 包括: 确定所述第一分布信息、 所述第二分布信息和所述第三分布信息两两之间的第一损 失; 根据各第一损失, 对所述教师模型进行知识蒸馏, 得到训练后的学生模型。 3.根据权利要求2所述的方法, 其中, 还 包括: 确定所述教师模型的注意力矩阵中对应于所述助教模型中的第一注意力矩阵的第二 注意力矩阵; 确定所述第一注意力矩阵和所述第二注意力矩阵之间的第二损失; 以及 所述根据各第一损失, 对所述教师模型进行知识蒸馏, 得到训练后的学生模型, 包括: 根据各第一损 失和所述第二损 失, 对所述教师模型进行知识蒸馏, 得到训练后的学生 模型。 4.根据权利要求1 ‑3中任一项所述的方法, 其中, 所述助教模型和所述学生模型基于同 一后交互双塔模型实现; 以及 确定所述助教模型输出的第二匹配度和所述学生模型输出的第三匹配度, 包括: 确定所述双塔模型中的第一塔形网络的第一输出和第二塔形网络的第二输出之间关 于语义编码信息的第二匹配度, 以及关于文本单 元编码信息的第三匹配度。 5.根据权利要求4所述的方法, 其中, 第一匹配度、 第二匹配和第三匹配度均通过匹配 度数值表征; 以及 所述确定所述双塔模型中的第一塔形网络的第一输出和第二塔形网络的第二输出之 间关于语义编码信息的第二匹配度, 以及关于文本单 元编码信息的第三匹配度, 包括: 确定所述第一输出中的语义编码信息和所述第二输出中的语义编码信息之间的匹配 度数值, 得到第二匹配度; 对于所述第 一输出中的每个文本单元编码信 息, 根据所述第 一输出中的该文本单元编 码信息与所述第二输出中的每个文本单元编码信息之 间的匹配度数值, 确定所述第一输出 中的该文本单 元编码信息对应的最大匹配度数值; 根据所述第 一输出中的每个文本单元编码信 息对应的最大匹配度 数值, 确定第 三匹配 度。 6.根据权利要求1所述的方法, 其中, 所述训练样本集中的训练样本包括样本文本对和 表征样本文本对中的样本文本之间的匹配度的标签; 以及权 利 要 求 书 1/3 页 2 CN 114818735 A 2所述根据训练样本集训练教师模型、 助教模型和学生模型, 包括: 利用机器学习算法, 以样本文本对为所述教师模型、 所述助教模型和所述学生模型的 输入, 以所输入的样本文本对对应的标签为期 望输出, 训练所述教师模型、 所述助教模型和 所述学生模型。 7.一种文本匹配方法, 包括: 获取待匹配文本; 通过训练后的学生模型确定与所述待匹配文本匹配的目标文本, 其中, 所述训练后的 学生模型通过权利要求1 ‑6中任一项 进行训练、 知识蒸馏得到 。 8.一种基于级联的文本匹配模型的知识蒸馏装置, 包括: 第一确定单元, 被配置成在根据训练样本集训练教师模型、 助教模型和学生模型的过 程中, 对于输入的训练样本中的样 本文本对, 确定所述教师模 型输出的第一匹配度、 所述助 教模型输出的第二匹配度和所述学生模型输出的第三匹配度; 第二确定单元, 被配置成确定所述训练样本集中的预设数量的训练样本对应的第 一匹 配度的第一分布信息, 对应的第二匹配度的第二分布信息和对应的第三匹配度的第三分布 信息; 知识蒸馏单元, 被配置成根据所述第一分布信息、 所述第二分布信息和所述第三分布 信息, 在所述助教模型的辅助下, 对所述教师模型进行知识蒸馏, 得到训练后的学生模型。 9.根据权利要求8所述的装置, 其中, 所述知识蒸馏单 元, 进一步被配置成: 确定所述第一分布信息、 所述第二分布信息和所述第三分布信息两两之间的第一损 失; 根据各第一损失, 对所述教师模型进行知识蒸馏, 得到训练后的学生模型。 10.根据权利要求9所述的装置, 其中, 还 包括: 第三确定单元, 被配置成确定所述教师模型的注意力矩阵中对应于所述助教模型中的 第一注意力矩阵的第二注意力矩阵; 第四确定单元, 被配置成确定所述第 一注意力矩阵和所述第 二注意力矩阵之间的第 二 损失; 以及 所述知识蒸馏单 元, 进一步被配置成: 根据各第一损 失和所述第二损 失, 对所述教师模型进行知识蒸馏, 得到训练后的学生 模型。 11.根据权利要求8 ‑10中任一项所述的装置, 其中, 所述助教模型和所述学生模型基于 同一后交 互双塔模型实现; 以及 所述第一确定单 元, 进一步被配置成: 确定所述双塔模型中的第一塔形网络的第一输出和第二塔形网络的第二输出之间关 于语义编码信息的第二匹配度, 以及关于文本单 元编码信息的第三匹配度。 12.根据权利要求11所述的装置, 其中, 第一匹配度、 第二匹配和第三匹配度均通过匹 配度数值表征; 以及 所述第一确定单 元, 进一步被配置成: 确定所述第一输出中的语义编码信息和所述第二输出中的语义编码信息之间的匹配 度数值, 得到第二匹配度; 对于所述第一输出中的每个文本单元编码信息, 根据所述第一输 出中的该文本单元编码信息与所述第二输出中的每个文本单元编码信息之间的匹配度数权 利 要 求 书 2/3 页 3 CN 114818735 A 3

.PDF文档 专利 基于级联的文本匹配模型的知识蒸馏方法、装置及产品

文档预览
中文文档 27 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于级联的文本匹配模型的知识蒸馏方法、装置及产品 第 1 页 专利 基于级联的文本匹配模型的知识蒸馏方法、装置及产品 第 2 页 专利 基于级联的文本匹配模型的知识蒸馏方法、装置及产品 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:12:07上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。