说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210665757.7 (22)申请日 2022.06.14 (71)申请人 昆明理工大 学 地址 650500 云南省昆明市呈贡区景明南 路727号 (72)发明人 余正涛 陈玺文 高盛祥  (74)专利代理 机构 昆明隆合知识产权代理事务 所(普通合伙) 53220 专利代理师 何娇 (51)Int.Cl. G06F 40/58(2020.01) G06F 40/42(2020.01) G06F 40/242(2020.01) G06F 40/30(2020.01) G06F 40/216(2020.01)G06N 3/04(2006.01) (54)发明名称 融合主题信息的篇 章级神经机 器翻译方法 (57)摘要 本发明涉及融合主题信息的篇章级神经机 器翻译方法, 属自然语言处理领域。 先对篇章级 平行语料进行预处理并进行BPE分词; 再利用词 嵌入主题模 型训练源语言篇章主题, 对篇章文本 进行向量化表征, 得到文本中每个单词的词嵌 入, 后在神经机器翻译模型编码端, 将主题模型 表征的词嵌入与源语言词嵌入相加作为输入, 训 练翻译模型。 本发明使用主题模型得到主题信 息, 并将主题信息通过词嵌入的方式融合到源语 言编码中, 在编码阶段提供更多的上下文信息, 改善篇章级神经机器翻译中的代词一致性问题, 在英‑德、 英‑法 , 汉‑英语言对上 相较于 ContextAware ‑Transformer模型,分别提高了 0.26、 0.27以及0.2 9个BLEU值。 权利要求书3页 说明书10页 附图2页 CN 115048946 A 2022.09.13 CN 115048946 A 1.融合主题信息的篇 章级神经机器翻译方法, 其特 征在于: 所述方法的具体步骤如下: Step1、 使用双语数据, 对其进行 上下文对齐、 BPE分词相关预处 理后用于训练; Step2、 对源语言篇章语料的上下文句子进行去除低频词和高频词, 以及生成词 表处理 后, 使用开源的ETM主题词嵌入 模型训练主题词嵌入, 并抽取主题词嵌入; Step3、 将训练得到的主题词嵌入进行向量相加, 得到单一的词嵌入向量, 并分别与对 应上下文句子的每个向量进行相加得到最终的词嵌入, 将最 终的词嵌入作为翻译模型的上 下文编码器的输入; Step4、 最后, 先用不带上下文的双语语料预训练一个Transformer模型, 固定 Transformer模 型的编码 器和解码器参数, 在此基础上, 引入一个额外的上下文编码器编码 上下文句子, 以及引入一个额外的注意力层将上下文信息和Tr ansformer的当前句子信息 相关联, 并通过一个门控机制作为编码端最终的输出。 2.根据权利要求1所述的融合主题信 息的篇章级神经机器翻译方法, 其特征在于: 所述 Step1的具体步骤为: Step1.1、 基于I WLST的TED 演讲数据集, 获取篇 章级双语平行语料; Step1.2、 去除双语语料中的特殊符号, 对语料进行分词操作, 汉语语料使用jieba工具 进行分词, 英语、 德语、 法语语料使用MOS ES工具进行BPE分词, 并去除分词后长度小于6的句 子。 3.根据权利要求1所述的融合主题信 息的篇章级神经机器翻译方法, 其特征在于: 所述 Step2的具体步骤为: Step2.1、 首先预处理BPE分词后的篇章上下文句子, 去掉出现次数低于2和高于800 的 词, 并随机初始化每 个词的词嵌入向量; Step2.2、 基于ETM模型, 将主题个数设置为70 ‑80个, 使用预处理过的上下文句子, 训练 主题模型; Step2.3、 ETM首先采用logistic ‑normal分布获得第m个文档的主题分布, 之后对主题 分布进行多项式分布采样获得第n个词的主题, 主题的词汇分布则是由主题的向量表示ρ 与 各个词的词向量α 点乘后再softmax表示; 主题生成过程如下: 对每个文档m, 采样文档m的主题概率分布θm=softmax( δm), 再对文 档m中的每 个词wm,n, 选择一个隐含主题Zm,n~cat( θm), 生成词嵌入 其中ρ 是一个L ×V的矩阵, L为词嵌入大小, V是词表大小, θm表示第m对个文档的主题概 率分布, δm服从正态分布 δm~N(0,I), Zm,n表示第m个文档的第n个词的隐藏主题, wm,n表示第m 个文档的第n个词, θm服从logistic‑normal分布, 其中I 为其参数; Step2.4、 主题模型在训练 阶段采用变分推断来计算模型参数的对数边际似然估计值, 利用公式(1) ‑(4)计算损失函数, 之后用梯度下降更新并求 解模型参数ρ, α 和v; 为了计算ρ, α 的最大边际似然估计值: 首先, 计算每 个词的条件分布:权 利 要 求 书 1/3 页 2 CN 115048946 A 2计算主题的词分布参数βk: 最后用变分推理来计算ρ, α 和v的对数边界似然估计值: 其中θmk表示主题分布, ν表示变分参数, 表示数学期望, KL( ·)表示KL散度, q( ·) 表示高斯分布。 4.根据权利要求1所述的融合主题信 息的篇章级神经机器翻译方法, 其特征在于: 所述 Step3的具体步骤为: Step3.1、 首先利用主题模型训练获得的词嵌入列表, 对上下文句子分词之后, 通过查 询词表得到上下文句子的主题词嵌入表示; 然后将主题词嵌入表示的每个词嵌入进行加 和, 得到单一的词嵌入向量topics, 如公式(5)所示: 其中ti为句子的第i个主题词嵌入, m为词个数; Step3.2、 最后将topics与上下文句子进行词嵌入后的每个词嵌入向量xi相加得到最终 的上下文编码器的输入E={e1,e2,e3,...,em}, 如下公式(6)所示: ei=xi+topics   (6)。 5.根据权利要求1所述的融合主题信息的汉越跨语言词嵌入方法, 其特征在于: 所述 Step4的具体步骤为: Step4 .1、 对于给定的源语言文档的k个句子序列X=x(1),x(2),...,x(k), 代表源语言的第k句话包含 I个词, 对应的目标语言文档的k个句子序列 为Y=y(1),y(2),...,y(k), 代表目标语言的第k句话包含J个词, 因此将 篇章翻译的概 率表示如公式(7)所示: 其中 表示已翻译出的前m ‑1个词, X<k表示第k句的上 下文句子; Step4.2、 篇章神 经机器翻译模型采用和Transformer相同的词嵌入方式, 编码器以及 解码器; 为了体现语料 的词在句 子中不同位置的区别以及先后顺序, 在计算词嵌入矩阵之 后采用位置嵌入加入位置特 征, 如式(8)、 式(9)所示: 权 利 要 求 书 2/3 页 3 CN 115048946 A 3

.PDF文档 专利 融合主题信息的篇章级神经机器翻译方法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 融合主题信息的篇章级神经机器翻译方法 第 1 页 专利 融合主题信息的篇章级神经机器翻译方法 第 2 页 专利 融合主题信息的篇章级神经机器翻译方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:14:35上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。