说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111630203.5 (22)申请日 2021.12.28 (71)申请人 科大讯飞股份有限公司 地址 230088 安徽省合肥市高新 开发区望 江西路666号 (72)发明人 刘晨璇 李小喜 张为泰 刘俊华  (74)专利代理 机构 深圳市威世博知识产权代理 事务所(普通 合伙) 44280 专利代理师 刘希 (51)Int.Cl. G06F 40/58(2020.01) G06F 40/30(2020.01) G06F 40/289(2020.01) G06K 9/62(2022.01) (54)发明名称 一种翻译 方法、 翻译装置和计算机可读存储 介质 (57)摘要 本申请公开了一种翻译 方法、 翻译装置和计 算机可读存储介质, 该翻译方法包括: 获取待处 理数据, 将待处理数据输入第一翻译模型, 得到 翻译数据; 其中, 第一翻译模型的训练方法包括: 获取训练完的第二翻译模型、 原始平行语料以及 多个新词集, 新词集包括第一新词以及至少一个 第二新词, 第二新词为第一新词的译文; 对新词 集进行处理, 得到包含新词集的第一训练平行语 料; 对第一训练平行语料进行清洗处理, 得到第 二训练平行语料; 采用原始平行语料与第二训练 平行语料, 对第二翻译模型进行更新训练, 得到 第一翻译模型。 通过上述方式, 本申请能够提升 新词的翻译效果。 权利要求书3页 说明书9页 附图6页 CN 114492469 A 2022.05.13 CN 114492469 A 1.一种翻译方法, 其特 征在于, 包括: 获取待处 理数据, 将所述待处 理数据输入第一翻译模型, 得到翻译数据; 其中, 所述第一翻译模型的训练方法包括: 获取训练完的第二翻译模型、 原始平行语料以及多个新词集, 所述新词集包括第一新 词以及至少一个第二 新词, 所述第二 新词为所述第一 新词的译 文; 对所述新词集进行处 理, 得到包 含所述新词集的第一训练平行语料; 对所述第一训练平行语料进行清洗处 理, 得到第二训练平行语料; 采用所述原始平行语料与所述第二训练平行语料, 对所述第二翻译模型进行更新训 练, 得到所述第一翻译模型。 2.根据权利要求1所述的翻译方法, 其特征在于, 所述对所述新词集进行处理, 得到包 含所述新词集的第一训练平行语料的步骤, 包括: 获取所述原始平行语料的独立关键词组; 基于所述独立关键词组与所述新词集, 对所述原始平行语料进行更新处理, 得到所述 第一训练平行语料。 3.根据权利要求2所述的翻译方法, 其特征在于, 所述原始平行语料包括第 一原始单语 语料以及与所述第一原始单语语料对应的第二原始单语语料; 所述第二原始单语语料为所 述第一原 始单语语料的译 文, 所述方法还 包括: 获取所述第一原 始单语语料的独立关键词组, 得到第一独立关键词组; 基于所述第一独立关键词组与所述新词集, 对所述第一原始单语语料进行更新处理, 得到包含所述第一 新词的第一单语 语料; 基于所述第一单语 语料与所述第二原 始单语语料, 构建所述第一训练平行语料。 4.根据权利要求3所述的翻译方法, 其特征在于, 所述获取所述第 一原始单语语料的独 立关键词组, 得到第一独立关键词组的步骤, 包括: 对所述第一原始单语语料以及所述第二原始单语语料进行对齐处理, 得到对齐结果; 所述对齐结果包括所述第一原始单语语料中的第一词组、 所述第二原始单语语料中的第二 词组以及所述第一词组与所述第二词组的对应关系; 基于所述对齐结果, 从所述第一词组中筛 选出所述第一独立关键词组。 5.根据权利要求4所述的翻译方法, 其特征在于, 所述基于所述对齐结果, 从所述第一 词组中筛 选出所述第一独立关键词组的步骤, 包括: 判断所述第二词组中的词语之间是否存在其 他词组; 若所述第二词组中的词语之间不存在所述其他词组, 则确定所述第 一词组为所述第 一 独立关键词组; 若所述第二词组中的词语之间存在所述其他词组, 则判断所述其他词组是否与所述第 一词组存在对应关系; 若所述其他词组与 所述第一词组存在对应关系, 则确定所述第 一词组为所述第 一独立 关键词组。 6.根据权利要求4所述的翻译方法, 其特征在于, 所述基于所述第 一单语语料与所述第 二原始单语语料, 构建所述第一训练平行语料的步骤, 包括: 基于所述对齐结果, 获取所述第 一独立关键词组在所述第 二原始单语语料中对应的第权 利 要 求 书 1/3 页 2 CN 114492469 A 2二独立关键词组; 将所述第二独立关键词组替换为所述第二新词, 得到第二单语语料, 所述第二新词的 语言与所述第二原 始单语语料的语言相同; 将所述第一单语 语料与所述第二单语 语料对齐, 得到所述第一训练平行语料。 7.根据权利要求6所述的翻译方法, 其特征在于, 所述对所述第 一训练平行语料进行清 洗处理, 得到第二训练平行语料的步骤, 包括: 对所述第一单语 语料与所述第二单语 语料进行评分, 得到质量评分; 基于所述质量评分, 判断当前 是否满足预设筛 选条件; 若是, 则将所述第一训练平行语料确定为所述第二训练平行语料; 若否, 则将所述第一单语语料与所述第二单语语料删除, 并返回所述对所述第一单语 语料与所述第二单语 语料进行评分, 得到质量评分的步骤。 8.根据权利要求7所述的翻译方法, 其特征在于, 所述对所述第 一单语语料与 所述第二 单语语料进行评分, 得到质量评分的步骤, 包括: 利用第一语言模型对所述第一单语 语料进行语义评分, 得到第一质量评分; 利用第二语言模型对所述第二单语 语料进行语义评分, 得到第二质量评分; 将所述第一质量评分与所述第二质量评分相加, 得到所述质量评分; 判断所述质量评分是否超过 预设阈值; 若是, 则确定满足所述预设筛 选条件。 9.根据权利要求7所述的翻译方法, 其特征在于, 所述对所述第 一单语语料与 所述第二 单语语料进行评分, 得到质量评分的步骤, 还 包括: 利用第一语言模型对所述第一单语 语料进行语义评分, 得到第一质量评分; 利用第二语言模型对所述第二单语 语料进行语义评分, 得到第二质量评分; 判断所述第一质量评分以及所述第二质量评分是否均超过 预设阈值; 若是, 则确定满足所述预设筛选条件, 将所述第一训练平行语料确定为所述第二训练 平行语料。 10.根据权利要求3所述的翻译方法, 其特 征在于, 所述方法还 包括: 提取所述第 一原始单语语料中除所述独立关键词组之外的其他词组, 得到第 一其他词 组; 提取所述第一单语 语料中除所述第一 新词之外的其 他词组, 得到第二 其他词组; 判断所述第 一单语语料是否包含所述第 一新词, 且所述第 一其他词组是否与 所述第二 其他词组一 致; 若否, 则删除所述第一单语 语料。 11.根据权利要求1所述的翻译方法, 其特征在于, 所述对所述新词集进行处理, 得到包 含所述新词集的第一训练平行语料的步骤, 还 包括: 对所述原 始平行语料进行命名实体识别, 得到实体词组; 将所述实体词组替换为所述 新词集, 得到所述第一训练平行语料。 12.根据权利要求1所述的翻译方法, 其特征在于, 所述采用所述原始平行语料与所述 第二训练平行语料, 对所述第二翻译模 型进行更新训练, 得到所述第一翻译模型的步骤, 包 括:权 利 要 求 书 2/3 页 3 CN 114492469 A 3

.PDF文档 专利 一种翻译方法、翻译装置和计算机可读存储介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种翻译方法、翻译装置和计算机可读存储介质 第 1 页 专利 一种翻译方法、翻译装置和计算机可读存储介质 第 2 页 专利 一种翻译方法、翻译装置和计算机可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 20:42:52上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。