说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210787747.0 (22)申请日 2022.07.06 (71)申请人 昆明理工大 学 地址 650500 云南省昆明市呈贡区景明南 路727号 (72)发明人 赖华 杨汉清 余正涛 于志强  相艳  (74)专利代理 机构 昆明隆合知识产权代理事务 所(普通合伙) 53220 专利代理师 何娇 (51)Int.Cl. G06F 40/58(2020.01) G06F 40/211(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) (54)发明名称 基于降噪原型序列的汉越神经机器翻译方 法 (57)摘要 本发明涉及基于降噪原型序列的汉越神经 机器翻译方法, 属自然语言处理领域。 本发明包 括: 将汉语和越南语的句子语映射到向量空间, 利用跨语言相似性检索出目标端原型序列; 接着 将子词粒度原型序列进行还原为音节粒度,再依 据构建好的实体词典做噪声掩盖; 之后依据原型 序列与源端的相似性 以及稀有词词频对其进行 权重分配; 最后将处理好的原型序列作为模板信 息, 应用在双编码器 ‑单解码器结构, 指导翻译任 务。 针对汉越数据集的实验结果表明, 与当前最 优模型相比, 本发明在利用越南语单语数据缓解 双语资源匮乏的同时, 将原型序列进行噪声 过滤 并将其中对机器翻译有益的知识特征进行增强, 有效提升 了汉越机器翻译的性能。 权利要求书3页 说明书8页 附图1页 CN 115034239 A 2022.09.09 CN 115034239 A 1.基于降噪原型序列的汉越神经机器翻译方法, 其特征在于: 所述方法的具体步骤如 下: Step1、 将汉语 ‑越南语平行语料、 越南语候选句子库进行分词处理, 并利用 Underthesea‑Vietnam NLP工具构建越南语单语词典; Step2、 将词粒度的汉语句子、 子词粒度越南语候选句子通过两个编码器映射到向量空 间, 利用跨语言相似性检索出子词粒度的目标端原型序列, 并在音节粒度的候选句 子库中 对照出音节粒度的目标端原型序列; Step3、 对子词级原型序列进行粒度还原, 再依据构建好的实体词典做噪声掩盖, 之后 依据原型序列与源端的相似性以及稀有词词频对其进行权重分配, 赋予原型序列参考价 值; Step4、 将处理好的原型序列作为模板信息, 应用在双编码器 ‑单解码器结构, 指导翻译 任务。 2.根据权利要求1所述的基于降噪原型序列的汉越神经机器翻译方法, 其特征在于: 所 述Step1的具体步骤为: Step1.1、 利用Jieba分词工具对汉语语料进行分词, 得到词粒度的汉语句子x, 构建汉 语词语表; Step1.2、 利用subword ‑nmt工具对越南语、 候选句子库进行分词, 得到子词粒度的越南 语句子s以及音节粒度的越南语句子, 构建越南语词语表; Step1.3、 随后, 利用Underthesea ‑Vietnam NLP工具识别出越南语候选句 子库当中的 人名、 地名、 数字, 构建出实体词典。 3.根据权利要求1所述的基于降噪原型序列的汉越神经机器翻译方法, 其特征在于: 所 述Step2的具体步骤为: Step2.1、 将词粒度的汉语句子x输入编码器, 得到高维向量Ex; 将子词粒度的越南语句 子s输入编码器, 得到高维向量Es, x与s之间的相关性分数通过计算得 出: 按照分数r(xi, si)筛选出与第i个源语言句子xi相关性高的前3个子词粒度的目标语言 句子作为目标端语言原型序列S={sj, 1, sj, 2, sj, 3}; Step2.2、 依据子词粒度的目标端语言原型序列S在音节粒度的候选句子库中对照出音 节粒度的原型序列S1。 4.根据权利要求1所述的基于降噪原型序列的汉越神经机器翻译方法, 其特征在于: 所 述Step3的具体步骤为: Step3.1、 将检索出的子词粒度的目标端语言原型序列S={sj, 1, sj, 2, sj, 3}中, 按照‘@@’ 符号为边界, 将拆分过的音节还原; Step3.2、 将音节粒度的原型序列S1遍历一遍词典, 对照 出音节粒度原型序列中实体的 位置; Step3.3、 对比Step3.1与Step3.2当中实体、 数字的位置, 将未处理过的子词粒度的目 标端语言原型序列S中, 实体、 数字的位置用符号 ‘<mask> ’替换, 得到处理后的原型序列 S′={s′j, 1, s′j, 2, s′j, 3}; Step3.4、 根据越南语词语表, 统计子词级候选句子库中的句子进行词频统计, 将出现权 利 要 求 书 1/3 页 2 CN 115034239 A 2频率低于10%的词作为稀有词ωj, 计算处理后的子词粒度的原型序列S ′={s′j, 1, s′j, 2, s′j, 3}中每个句子(s ′j, k|k=1, 2, 3)的稀有词ωj的相对词频: 为指示函 数, 当处理后的子词粒度的原型序列S ′中的词ωi为稀有词时, 函 数值为1; 相反, 若不是稀有词时, 函 数值为0, Ntotal为原型序列中某个句子(s ′j, k|k=1, 2, 3) 所包含的子词数目; Step3.5、 将处理后的子词粒度的原型序列中每个句子(s ′j, k|k=1, 2, 3)所有稀有词的 相对词频聚合, 判断该原型序列中每 个句子的整体难度分数: Step3.6、 结合检索模块中的得到相关性得分r(xi, si)以及当前模块得到的原 型序列难 度 根据公式(4)得到原型序列的参 考价值 5.根据权利要求1所述的基于降噪原型序列的汉越神经机器翻译方法, 其特征在于: 所 述Step4的具体步骤为: Step4.1、 将源语言句子的词粒度的汉语句子x输入源语言编码器, 将Step3得到的处理 后的子词粒度的原型序列S ′={s′j, 1, s′j, 2, s′j, 3}输入目标语言编码器; Step4.2、 解码器根据先前时间步生成的序列y1: t‑1以及源语言编码器的输出, 生成隐藏 状态ht; 经过一次线性变换以及softmax运 算以后, 得到下一个to ken的预测概 率值: Pv=softmax(Wvht+bv)          (5) 其中, Wv为维度变换矩阵, bv为偏置; Step4.3、 原型编码器将处理后的子词粒度的原型序列S ′的每个句子(s ′j, k|k=1, 2, 3) 转换为一组词嵌入 Li为原型序列的句子长度, 给原型序列中被 ‘<mask> ’替换 的实体Sillegal的位置加上一个无穷大的负 偏置, 即: Sillegal=Sillegal+Biasillegal        (6) Biasillegal→‑∞                 (7) Step4.4、 计算隐状态ht与原型序列S ′中每个句子(s ′j, k|k=1, 2, 3)的每一个词的注意 力: Wm是一个维度变换矩阵, β 为一个可以训练的权重参数, 用来权衡参考价值 的影响; M 为原型序列S ′中所含的句子数目; Step4.5、 利用 αk, l对原型序列S ′={s′j, 1, s′j, 2, s′j, 3}的每一个词做加权平均: Step4.6、 用ct更新隐状态后, 结合Step4.2得到的Pv, 计算出下一个子词 yt的预测概率 值:权 利 要 求 书 2/3 页 3 CN 115034239 A 3

.PDF文档 专利 基于降噪原型序列的汉越神经机器翻译方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于降噪原型序列的汉越神经机器翻译方法 第 1 页 专利 基于降噪原型序列的汉越神经机器翻译方法 第 2 页 专利 基于降噪原型序列的汉越神经机器翻译方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:12:26上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。