专利一种基于多套语料库的机器翻译模型蒸馏方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211341973.2 (22)申请日 2022.10.31 (71)申请人南京万得资讯科技有限公司地址 210019 江苏省南京市建邺区泰山路 199号22楼 (72)发明人朱胜　褚佳文　何国华　 (74)专利代理机构上海申汇专利代理有限公司 31001 专利代理师翁若莹　柏子雵 (51)Int.Cl. G06F 40/58(2020.01) G06F 40/242(2020.01) G06K 9/62(2022.01) (54)发明名称一种基于多套语料库的机器翻译模型蒸馏方法 (57)摘要本发明提供了一种基于多套语料库的机器翻译模型蒸馏方法。本发明使用多套语料库巧妙避免了在蒸馏模型训练时还需要进行 BeamSearch搜索，因为在训练伊始，教师模型的翻译结果便已经被知晓，所以不必再保留大量中间结果，这极大降低了对内存的消耗。模型蒸馏时，本发明不再需要边教师模型推理，边训练学生模型，这样显著提升了训练速度。同时，在本发明所公开的技术方案中，由于多套语料库的存在使得对不同蒸馏方案的实现也变得简单。这些问题的克服使得对机器翻译模型进行蒸馏成为了可能。权利要求书2页说明书7页附图3页 CN 115392269 A 2022.11.25 CN 115392269 A 1.一种基于多套语料库的机器翻译模型蒸馏方法，其特征在于，包括以下步骤：步骤1、用组成的语料库训练教师模型，其中，是待翻译序列，长度为I，是s中第i个词，是翻译的目标序列；步骤2、蒸馏系统的教师模型使用BeamSearc h算法翻译待翻译序列 s，得到输出结果；步骤3、用创建一套新的语料库；步骤4、将用组成的语料库输入蒸馏系统的学生模型，在学生模型中计算损失；步骤5、将用创建的语料库分别输入教师模型以及学生模型，在教师模型中获取 Soft‑Target，在学生模型中获取当前输入条件下的词典中各词的出现概率，然后基于 Soft‑Target以及学生模型获取的出现概率计算损失；步骤6、基于步骤4获得的损失以及步骤5获得的损失计算得到总损失，然后完成误差的反向传播，其中，教师模型不参与反向传播；步骤7、完成学生模型的训练后，用学生模型单独作为机器翻译器进行部署，由机器翻译器对实时输入的语料进行推理和翻译，从而获得翻译后的语料。 2.如权利要求1所述的一种基于多套语料库的机器翻译模型蒸馏方法，其特征在于，步骤4中，所述损失的计算方法是：式中：是所有可能的翻译序列的集合，是翻译输出序列，长度为 J，是中第个词，在集合中取值；是指示函数，表示当翻译输出序列与翻译目标序列相同时，函数输出1，否则输出0；表示在输入待翻译序列 s的条件下，获得翻译序列的概率；表示如果词典 V中的第k个词与翻译目标序列的第个词相同则输出1，否则输出0；表示在输入待翻译序列s，翻译序列的前个词已经按前述BeamSearch算法选定的条件下，学生模型在第个时间步长的输出为字典 V中的第k个词的概率。 3.如权利要求1所述的一种基于多套语料库的机器翻译模型蒸馏方法，其特征在于，步骤5中，所述损失的计算方法是：权　利　要　求　书 1/2 页 2 CN 115392269 A 2式中，表示在输入待翻译序列 s，翻译序列的前个词与的前个词相同的条件下教师模型在第个时间步长的输出为字典 V中的第k个词的概率；表示在输入待翻译序列 s，翻译序列的前个词与的前个词相同的条件下学生模型在第个时间步长的输出为字典 V中的第k个词的概率。 4.如权利要求1所述的一种基于多套语料库的机器翻译模型蒸馏方法，其特征在于，所述总损失为所述损失和所述损失的线性组合。 5.如权利要求4所述的一种基于多套语料库的机器翻译模型蒸馏方法，其特征在于，步骤6中，所述总损失，其中。 6.如权利要求1所述的一种基于多套语料库的机器翻译模型蒸馏方法，其特征在于，步骤1中，用组成的语料库训练N个教师模型， N≥2；步骤2中， N个教师模型均使用BeamSearc h算法翻译待翻译序列 s，得到N个输出结果；步骤3中，用创建N套新的语料库；步骤5中，分别用创建的N套语料库分别输入同一学生模型，在与当前一套语料库对应的教师模型中获取Soft ‑Target，并且在相对应的学生模型中获取当前输入条件下的词典中各词的出现概率后，计算获得与每个教师模型所对应的损失，则最终得到的损失，其中，L’KDn表示与第 n个教师模型对应的损失。 7.如权利要求1所述的一种基于多套语料库的机器翻译模型蒸馏方法，其特征在于，步骤2中、教师模型使用的BeamSearc h算法所设置的K值较大；在所述步骤3之后，且在所述步骤4之前还包括以下步骤： a）教师模型使用K值设置较小的BeamSearch算法翻译 s，得到翻译质量相对较差的翻译结果； b）用创建一套新的语料库； c）用创建的语料库直接训练蒸馏系统的学生模型，将完成训练后的学生模型纳入到蒸馏系统中。权　利　要　求　书 2/2 页 3 CN 115392269 A 3

专利 一种基于多套语料库的机器翻译模型蒸馏方法

专利一种基于多套语料库的机器翻译模型蒸馏方法