专利基于降噪原型序列的汉越神经机器翻译方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210787747.0 (22)申请日 2022.07.06 (71)申请人昆明理工大学地址 650500 云南省昆明市呈贡区景明南路727号 (72)发明人赖华　杨汉清　余正涛　于志强　相艳　 (74)专利代理机构昆明隆合知识产权代理事务所(普通合伙) 53220 专利代理师何娇 (51)Int.Cl. G06F 40/58(2020.01) G06F 40/211(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) (54)发明名称基于降噪原型序列的汉越神经机器翻译方法 (57)摘要本发明涉及基于降噪原型序列的汉越神经机器翻译方法，属自然语言处理领域。本发明包括：将汉语和越南语的句子语映射到向量空间，利用跨语言相似性检索出目标端原型序列；接着将子词粒度原型序列进行还原为音节粒度,再依据构建好的实体词典做噪声掩盖；之后依据原型序列与源端的相似性以及稀有词词频对其进行权重分配；最后将处理好的原型序列作为模板信息，应用在双编码器 ‑单解码器结构，指导翻译任务。针对汉越数据集的实验结果表明，与当前最优模型相比，本发明在利用越南语单语数据缓解双语资源匮乏的同时，将原型序列进行噪声过滤并将其中对机器翻译有益的知识特征进行增强，有效提升了汉越机器翻译的性能。权利要求书3页说明书8页附图1页 CN 115034239 A 2022.09.09 CN 115034239 A 1.基于降噪原型序列的汉越神经机器翻译方法，其特征在于：所述方法的具体步骤如下： Step1、将汉语 ‑越南语平行语料、越南语候选句子库进行分词处理，并利用 Underthesea‑Vietnam NLP工具构建越南语单语词典； Step2、将词粒度的汉语句子、子词粒度越南语候选句子通过两个编码器映射到向量空间，利用跨语言相似性检索出子词粒度的目标端原型序列，并在音节粒度的候选句子库中对照出音节粒度的目标端原型序列； Step3、对子词级原型序列进行粒度还原，再依据构建好的实体词典做噪声掩盖，之后依据原型序列与源端的相似性以及稀有词词频对其进行权重分配，赋予原型序列参考价值； Step4、将处理好的原型序列作为模板信息，应用在双编码器 ‑单解码器结构，指导翻译任务。 2.根据权利要求1所述的基于降噪原型序列的汉越神经机器翻译方法，其特征在于：所述Step1的具体步骤为： Step1.1、利用Jieba分词工具对汉语语料进行分词，得到词粒度的汉语句子x，构建汉语词语表； Step1.2、利用subword ‑nmt工具对越南语、候选句子库进行分词，得到子词粒度的越南语句子s以及音节粒度的越南语句子，构建越南语词语表； Step1.3、随后，利用Underthesea ‑Vietnam NLP工具识别出越南语候选句子库当中的人名、地名、数字，构建出实体词典。 3.根据权利要求1所述的基于降噪原型序列的汉越神经机器翻译方法，其特征在于：所述Step2的具体步骤为： Step2.1、将词粒度的汉语句子x输入编码器，得到高维向量Ex；将子词粒度的越南语句子s输入编码器，得到高维向量Es， x与s之间的相关性分数通过计算得出：按照分数r(xi， si)筛选出与第i个源语言句子xi相关性高的前3个子词粒度的目标语言句子作为目标端语言原型序列S＝{sj， 1， sj， 2， sj， 3}； Step2.2、依据子词粒度的目标端语言原型序列S在音节粒度的候选句子库中对照出音节粒度的原型序列S1。 4.根据权利要求1所述的基于降噪原型序列的汉越神经机器翻译方法，其特征在于：所述Step3的具体步骤为： Step3.1、将检索出的子词粒度的目标端语言原型序列S＝{sj， 1， sj， 2， sj， 3}中，按照‘@@’ 符号为边界，将拆分过的音节还原； Step3.2、将音节粒度的原型序列S1遍历一遍词典，对照出音节粒度原型序列中实体的位置； Step3.3、对比Step3.1与Step3.2当中实体、数字的位置，将未处理过的子词粒度的目标端语言原型序列S中，实体、数字的位置用符号 ‘＜mask＞ ’替换，得到处理后的原型序列 S′＝{s′j， 1， s′j， 2， s′j， 3}； Step3.4、根据越南语词语表，统计子词级候选句子库中的句子进行词频统计，将出现权　利　要　求　书 1/3 页 2 CN 115034239 A 2频率低于10％的词作为稀有词ωj，计算处理后的子词粒度的原型序列S ′＝{s′j， 1， s′j， 2， s′j， 3}中每个句子(s ′j， k|k＝1， 2， 3)的稀有词ωj的相对词频：为指示函数，当处理后的子词粒度的原型序列S ′中的词ωi为稀有词时，函数值为1；相反，若不是稀有词时，函数值为0， Ntotal为原型序列中某个句子(s ′j， k|k＝1， 2， 3) 所包含的子词数目； Step3.5、将处理后的子词粒度的原型序列中每个句子(s ′j， k|k＝1， 2， 3)所有稀有词的相对词频聚合，判断该原型序列中每个句子的整体难度分数： Step3.6、结合检索模块中的得到相关性得分r(xi， si)以及当前模块得到的原型序列难度根据公式(4)得到原型序列的参考价值 5.根据权利要求1所述的基于降噪原型序列的汉越神经机器翻译方法，其特征在于：所述Step4的具体步骤为： Step4.1、将源语言句子的词粒度的汉语句子x输入源语言编码器，将Step3得到的处理后的子词粒度的原型序列S ′＝{s′j， 1， s′j， 2， s′j， 3}输入目标语言编码器； Step4.2、解码器根据先前时间步生成的序列y1： t‑1以及源语言编码器的输出，生成隐藏状态ht；经过一次线性变换以及softmax运算以后，得到下一个to ken的预测概率值： Pv＝softmax(Wvht+bv) (5) 其中， Wv为维度变换矩阵， bv为偏置； Step4.3、原型编码器将处理后的子词粒度的原型序列S ′的每个句子(s ′j， k|k＝1， 2， 3) 转换为一组词嵌入 Li为原型序列的句子长度，给原型序列中被 ‘＜mask＞ ’替换的实体Sillegal的位置加上一个无穷大的负偏置，即： Sillegal＝Sillegal+Biasillegal (6) Biasillegal→‑∞ (7) Step4.4、计算隐状态ht与原型序列S ′中每个句子(s ′j， k|k＝1， 2， 3)的每一个词的注意力： Wm是一个维度变换矩阵， β 为一个可以训练的权重参数，用来权衡参考价值的影响； M 为原型序列S ′中所含的句子数目； Step4.5、利用 αk， l对原型序列S ′＝{s′j， 1， s′j， 2， s′j， 3}的每一个词做加权平均： Step4.6、用ct更新隐状态后，结合Step4.2得到的Pv，计算出下一个子词 yt的预测概率值：权　利　要　求　书 2/3 页 3 CN 115034239 A 3

专利 基于降噪原型序列的汉越神经机器翻译方法

专利基于降噪原型序列的汉越神经机器翻译方法