说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211341973.2 (22)申请日 2022.10.31 (71)申请人 南京万得资 讯科技有限公司 地址 210019 江苏省南京市 建邺区泰山路 199号22楼 (72)发明人 朱胜 褚佳文 何国华  (74)专利代理 机构 上海申汇 专利代理有限公司 31001 专利代理师 翁若莹 柏子雵 (51)Int.Cl. G06F 40/58(2020.01) G06F 40/242(2020.01) G06K 9/62(2022.01) (54)发明名称 一种基于多套语料库的机器翻译模型蒸馏 方法 (57)摘要 本发明提供了一种基于多套语料库的机器 翻译模型蒸馏方法。 本发明使用多套语料库巧妙 避 免 了 在 蒸 馏 模 型 训 练 时 还 需 要 进 行 BeamSearch搜索, 因为在训练伊始, 教师模型的 翻译结果便已经被知晓, 所以不必再保留大量中 间结果, 这极大降低了对内存的消耗。 模型蒸馏 时, 本发明不再需要边教师模型推理, 边训练学 生模型, 这样显著提升了训练速度。 同时, 在本发 明所公开的技术方案中, 由于多套语料库的存在 使得对不同蒸馏方案的实现也变得简单。 这些问 题的克服使得对机器翻译模型进行蒸馏成为了 可能。 权利要求书2页 说明书7页 附图3页 CN 115392269 A 2022.11.25 CN 115392269 A 1.一种基于多 套语料库的机器翻译模型蒸馏方法, 其特 征在于, 包括以下步骤: 步骤1、 用 组成的语料库训练教师模型, 其中, 是待翻译序列, 长度为I, 是s中第i个词, 是翻译的目标序列; 步骤2、 蒸馏系统的教师模型使用BeamSearc h算法翻译 待翻译序列 s, 得到输出结果 ; 步骤3、 用 创建一套新的语料库; 步骤4、 将用 组成的语料库输入蒸馏系统的学生模型, 在学生模型中计算损失 ; 步骤5、 将用 创建的语料库分别输入教师模型以及学生模型, 在教师模型中获取 Soft‑Target, 在学生模型中获取当前输入条件下的词典中各词的出现概率, 然后基于 Soft‑Target以及学生模型获取的出现概 率计算损失 ; 步骤6、 基于步骤4获得的损失 以及步骤5获得的损失 计算得到总损失 , 然后完成误差的反向传播, 其中, 教师模型不 参与反向传播; 步骤7、 完成学生模型的训练后, 用学生模型单独作为机器翻译器进行部署, 由机器翻 译器对实时输入的语料进行推理和翻译, 从而获得翻译后的语料。 2.如权利要求1所述的一种基于多套语料库的机器翻译模型蒸馏方法, 其特征在于, 步 骤4中, 所述损失 的计算方法是: 式中: 是所有可能的翻译序列的集合, 是翻译输出序列, 长度为 J, 是 中第 个词, 在集合 中取值; 是指示函数, 表示当翻译输出序列 与翻译目标序列 相同时, 函数输出1, 否则输出0; 表示在输入待翻译序列 s的 条件下, 获得翻译序列 的概率; 表示如果词典 V中的第k个词与翻译目标序列 的第 个词相同则输出1, 否则输出0; 表示在输入待翻 译序列s, 翻译序列 的前 个词已经按前述BeamSearch算法选定的条件下, 学生模型在第 个时间步长 的输出为字典 V中的第k个词的概 率。 3.如权利要求1所述的一种基于多套语料库的机器翻译模型蒸馏方法, 其特征在于, 步 骤5中, 所述损失 的计算方法是:权 利 要 求 书 1/2 页 2 CN 115392269 A 2式中, 表示在输入待翻译序列 s, 翻译序列的前 个词与 的前 个词相同的条件下教师模型在第 个时间步长的输出为字典 V中的第k个词的概率; 表示在输入待翻译序列 s, 翻译序列的前 个词与 的前 个词相 同的条件下 学生模型在第 个时间步长的输出为字典 V中的第k个词的概 率。 4.如权利要求1所述的一种基于多套语料库的机器翻译模型蒸馏方法, 其特征在于, 所 述总损失 为所述损失 和所述损失 的线性组合。 5.如权利要求4所述的一种基于多套语料库的机器翻译模型蒸馏方法, 其特征在于, 步 骤6中, 所述总损失 , 其中 。 6.如权利要求1所述的一种基于多套语料库的机器翻译模型蒸馏方法, 其特征在于, 步 骤1中, 用 组成的语料库训练N个教师模型, N≥2; 步骤2中, N个教师模型均使用BeamSearc h算法翻译 待翻译序列 s, 得到N个输出 结果 ; 步骤3中, 用 创建N套新的语料库; 步骤5中, 分别用 创建的N套语料库分别输入同一学生模型, 在与当前一套语料库 对应的教师模型中获取Soft ‑Target, 并且在相对应的学生模型中获取当前输入条件下的 词典中各词的出现概率后, 计算获得与每个教师模型所对应的损失 , 则最终得到的损 失 , 其中,L’KDn表示与第 n个教师模型对应的损失 。 7.如权利要求1所述的一种基于多套语料库的机器翻译模型蒸馏方法, 其特征在于, 步 骤2中、 教师模型使用的BeamSearc h算法所设置的K值较大; 在所述步骤3之后, 且在所述 步骤4之前还 包括以下步骤: a) 教师模型使用K值设置较小的BeamSearch算法翻译 s, 得到翻译质量相对 较差的翻 译结果 ; b) 用 创建一套新的语料库; c) 用 创建的语料库直接训练蒸馏系统的学生模型, 将完成训练后的学生模型纳 入到蒸馏系统中。权 利 要 求 书 2/2 页 3 CN 115392269 A 3

.PDF文档 专利 一种基于多套语料库的机器翻译模型蒸馏方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多套语料库的机器翻译模型蒸馏方法 第 1 页 专利 一种基于多套语料库的机器翻译模型蒸馏方法 第 2 页 专利 一种基于多套语料库的机器翻译模型蒸馏方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:41:19上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。