专利融合主题信息的篇章级神经机器翻译方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210665757.7 (22)申请日 2022.06.14 (71)申请人昆明理工大学地址 650500 云南省昆明市呈贡区景明南路727号 (72)发明人余正涛　陈玺文　高盛祥　 (74)专利代理机构昆明隆合知识产权代理事务所(普通合伙) 53220 专利代理师何娇 (51)Int.Cl. G06F 40/58(2020.01) G06F 40/42(2020.01) G06F 40/242(2020.01) G06F 40/30(2020.01) G06F 40/216(2020.01)G06N 3/04(2006.01) (54)发明名称融合主题信息的篇章级神经机器翻译方法 (57)摘要本发明涉及融合主题信息的篇章级神经机器翻译方法，属自然语言处理领域。先对篇章级平行语料进行预处理并进行BPE分词；再利用词嵌入主题模型训练源语言篇章主题，对篇章文本进行向量化表征，得到文本中每个单词的词嵌入，后在神经机器翻译模型编码端，将主题模型表征的词嵌入与源语言词嵌入相加作为输入，训练翻译模型。本发明使用主题模型得到主题信息，并将主题信息通过词嵌入的方式融合到源语言编码中，在编码阶段提供更多的上下文信息，改善篇章级神经机器翻译中的代词一致性问题，在英‑德、英‑法，汉‑英语言对上相较于 ContextAware ‑Transformer模型,分别提高了 0.26、 0.27以及0.2 9个BLEU值。权利要求书3页说明书10页附图2页 CN 115048946 A 2022.09.13 CN 115048946 A 1.融合主题信息的篇章级神经机器翻译方法，其特征在于：所述方法的具体步骤如下： Step1、使用双语数据，对其进行上下文对齐、 BPE分词相关预处理后用于训练； Step2、对源语言篇章语料的上下文句子进行去除低频词和高频词，以及生成词表处理后，使用开源的ETM主题词嵌入模型训练主题词嵌入，并抽取主题词嵌入； Step3、将训练得到的主题词嵌入进行向量相加，得到单一的词嵌入向量，并分别与对应上下文句子的每个向量进行相加得到最终的词嵌入，将最终的词嵌入作为翻译模型的上下文编码器的输入； Step4、最后，先用不带上下文的双语语料预训练一个Transformer模型，固定 Transformer模型的编码器和解码器参数，在此基础上，引入一个额外的上下文编码器编码上下文句子，以及引入一个额外的注意力层将上下文信息和Tr ansformer的当前句子信息相关联，并通过一个门控机制作为编码端最终的输出。 2.根据权利要求1所述的融合主题信息的篇章级神经机器翻译方法，其特征在于：所述 Step1的具体步骤为： Step1.1、基于I WLST的TED 演讲数据集，获取篇章级双语平行语料； Step1.2、去除双语语料中的特殊符号，对语料进行分词操作，汉语语料使用jieba工具进行分词，英语、德语、法语语料使用MOS ES工具进行BPE分词，并去除分词后长度小于6的句子。 3.根据权利要求1所述的融合主题信息的篇章级神经机器翻译方法，其特征在于：所述 Step2的具体步骤为： Step2.1、首先预处理BPE分词后的篇章上下文句子，去掉出现次数低于2和高于800 的词，并随机初始化每个词的词嵌入向量； Step2.2、基于ETM模型，将主题个数设置为70 ‑80个，使用预处理过的上下文句子，训练主题模型； Step2.3、 ETM首先采用logistic ‑normal分布获得第m个文档的主题分布，之后对主题分布进行多项式分布采样获得第n个词的主题，主题的词汇分布则是由主题的向量表示ρ 与各个词的词向量α 点乘后再softmax表示；主题生成过程如下：对每个文档m，采样文档m的主题概率分布θm＝softmax( δm)，再对文档m中的每个词wm,n，选择一个隐含主题Zm,n～cat( θm)，生成词嵌入其中ρ 是一个L ×V的矩阵， L为词嵌入大小， V是词表大小， θm表示第m对个文档的主题概率分布， δm服从正态分布 δm～N(0,I)， Zm,n表示第m个文档的第n个词的隐藏主题， wm,n表示第m 个文档的第n个词， θm服从logistic‑normal分布，其中I 为其参数； Step2.4、主题模型在训练阶段采用变分推断来计算模型参数的对数边际似然估计值，利用公式(1) ‑(4)计算损失函数，之后用梯度下降更新并求解模型参数ρ， α 和v；为了计算ρ， α 的最大边际似然估计值：首先，计算每个词的条件分布：权　利　要　求　书 1/3 页 2 CN 115048946 A 2计算主题的词分布参数βk：最后用变分推理来计算ρ， α 和v的对数边界似然估计值：其中θmk表示主题分布， ν表示变分参数，表示数学期望， KL( ·)表示KL散度， q( ·) 表示高斯分布。 4.根据权利要求1所述的融合主题信息的篇章级神经机器翻译方法，其特征在于：所述 Step3的具体步骤为： Step3.1、首先利用主题模型训练获得的词嵌入列表，对上下文句子分词之后，通过查询词表得到上下文句子的主题词嵌入表示；然后将主题词嵌入表示的每个词嵌入进行加和，得到单一的词嵌入向量topics，如公式(5)所示：其中ti为句子的第i个主题词嵌入， m为词个数； Step3.2、最后将topics与上下文句子进行词嵌入后的每个词嵌入向量xi相加得到最终的上下文编码器的输入E＝{e1,e2,e3,...,em}，如下公式(6)所示： ei＝xi+topics (6)。 5.根据权利要求1所述的融合主题信息的汉越跨语言词嵌入方法，其特征在于：所述 Step4的具体步骤为： Step4 .1、对于给定的源语言文档的k个句子序列X＝x(1),x(2),...,x(k), 代表源语言的第k句话包含 I个词，对应的目标语言文档的k个句子序列为Y＝y(1),y(2),...,y(k)，代表目标语言的第k句话包含J个词，因此将篇章翻译的概率表示如公式(7)所示：其中表示已翻译出的前m ‑1个词， X＜k表示第k句的上下文句子； Step4.2、篇章神经机器翻译模型采用和Transformer相同的词嵌入方式，编码器以及解码器；为了体现语料的词在句子中不同位置的区别以及先后顺序，在计算词嵌入矩阵之后采用位置嵌入加入位置特征，如式(8)、式(9)所示：权　利　要　求　书 2/3 页 3 CN 115048946 A 3

专利 融合主题信息的篇章级神经机器翻译方法

专利融合主题信息的篇章级神经机器翻译方法