说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210645372.4 (22)申请日 2022.06.09 (71)申请人 北京捷通 华声科技股份有限公司 地址 100193 北京市海淀区东北旺西路8号 9号楼3层2区318 (72)发明人 关玉洋 邢启洲 李健 陈明  武卫东  (74)专利代理 机构 北京润泽恒知识产权代理有 限公司 1 1319 专利代理师 苏培华 (51)Int.Cl. G06F 40/58(2020.01) G06F 40/126(2020.01) G06F 40/279(2020.01) G06F 40/30(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于机器翻译的知识融合方法、 装置、 设备、 介质及产品 (57)摘要 本发明提供一种基于机器翻译的知识融合 方法、 装置、 设备、 介质及产品, 所述方法包括: 获 取待翻译的源语 言文本; 获取与所述源语言文本 中的指定词或短语对应的目标语言对应词或短 语; 对所述源语 言文本和所述目标语 言对应词或 短语的子词进行融合, 得到融合后的子词文本序 列; 对所述子词文本序列中的每个子词进行成分 标注, 得到所述每个子词对应的成分标注序列; 对所述子词文本序列和对应成分标注序列进行 翻译, 得到所述源语言文本的目标语言文。 本发 明中, 对源语 言文本和目标语言对应词或短语分 别进行子词分词后再融合, 不但降低了终端词汇 量的融入, 解决了翻译时超出词汇的问题, 还提 高了用户指定词或短语翻译的准确率 以及整句 话的翻译效果。 权利要求书2页 说明书12页 附图6页 CN 115099246 A 2022.09.23 CN 115099246 A 1.一种基于 机器翻译的知识融合方法, 其特 征在于, 包括: 获取待翻译的源语言文本; 获取与所述源语言文本中的指定词或短语对应的目标语言对应词或短语; 对所述源语言文本和所述目标语言对应词或短语的子词进行融合, 得到 融合后的子词 文本序列; 对所述子词 文本序列中的每个子词进行成分标注, 得到所述每个子词对应的成分标注 序列; 对所述子词 文本序列和对应成分标注序列进行翻译, 得到所述源语言文本的目标语言 文本。 2.根据权利要求1所述的基于机器翻译的知识融合方法, 其特征在于, 所述获取与 所述 源语言文本中的指定词或短语对应的目标语言对应词或短语, 包括: 提取所述源语言文本中的指定词或短语, 以及所述指定词或短语在所述源目标语言文 本中的位置; 以及 获取与所述指定词或短语对应的目标语言对应词或短语; 或者检测到用户输入的与 所 述源语言文本中的指定词或短语对应的目标语言对应词或短语。 3.根据权利要求1或2所述的基于机器翻译的知识融合方法, 其特征在于, 所述对所述 源语言文本和所述目标语言对应词或短语的子词进行子词融合, 得到子词融合后的子词文 本序列, 包括: 对所述源语言文本和所述目标语言对应词或短语分别进行子词分词, 得到对应的第 一 子词分词结果和第二子词分词结果; 对所述第一子词分词结果和第二子词分词结果进行拼接, 得到拼接后的子词文本序 列。 4.根据权利要求3所述的基于机器翻译的知识融合方法, 其特征在于, 所述第 一子词分 词结果包括: 与所述源语言文本中的指定词或短语的子词分词结果, 以及所述源语言文本 中除所述指定词或短语的子词分词结果外其余部分的子词分词结果; 所述第二子词分词结 果包括: 目标语言指定词或短语的子词分词结果; 所述对所述第一子词分词结果和第二子词分词结果进行拼接包括: 按照所述指定词或短语在所述源目标语言文本 中的位置, 将所述目标语言指定词或短 语的子词分词 结果插入到所述源语言文本中的指定词或短语的子词分词 结果的后面进行 拼接, 得到拼接后的子词文本序列。 5.根据权利要求1或2所述的基于机器翻译的知识融合方法, 其特征在于, 对所述子词 文本序列和对应成分标注序列进行翻译, 得到目标语言文本, 包括: 对所述子词 文本序列和对应成分标注序列分别进行向量编码, 得到语意编码向量和对 应的成分编码向量; 对所述语意编码向量和对应的成分编码向量进行向量融合, 得到向量融合结果; 对所述向量融合结果进行解码, 得到所述源语言文本的目标语言文本 。 6.根据权利要求5所述的基于机器翻译的知识融合方法, 其特征在于, 所述向量融合的 方式包括: 拼接, 相加或者 通过神经网络加权 。 7.一种基于 机器翻译的知识融合装置, 其特 征在于, 包括:权 利 要 求 书 1/2 页 2 CN 115099246 A 2第一获取模块, 用于获取待翻译的源语言文本; 第二获取模块, 用于获取与 所述源语言文本 中的指定词或短语对应的目标语言对应词 或短语; 子词融合模块, 用于对所述源语言文本和所述目标语言对应词或短语的子词进行子词 融合, 得到 子词融合后的子词文本序列; 标注模块, 用于对所述子词文本序列中的每个子词进行成分标注, 得到对应的成分标 注序列; 翻译模块, 用于对所述子词文本序列和对应成分标注序列进行翻译, 得到所述源语言 文本的目标语言文本 。 8.一种电子设备, 其特 征在于, 包括: 处理器; 用于存储所述处 理器可执行指令的存 储器; 其中, 所述处理器被配置为执行所述指令, 以实现如权利要求1至5中任一项所述的基 于机器翻译的知识融合方法。 9.一种计算机可读存储介质, 其特征在于, 当所述计算机可读存储介质中的指令由电 子设备的处理器执行时, 使得电子 设备能够执行如权利要求 1至5中任一项所述的基于机器 翻译的知识融合方法。 10.一种计算机程序产品, 包括计算机程序或指令, 其特征在于, 所述计算机程序或指 令被处理器执行时实现权利要求1至 5任一项所述的基于 机器翻译的知识融合方法。权 利 要 求 书 2/2 页 3 CN 115099246 A 3

.PDF文档 专利 基于机器翻译的知识融合方法、装置、设备、介质及产品

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于机器翻译的知识融合方法、装置、设备、介质及产品 第 1 页 专利 基于机器翻译的知识融合方法、装置、设备、介质及产品 第 2 页 专利 基于机器翻译的知识融合方法、装置、设备、介质及产品 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:11:51上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。