说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210394030.X (22)申请日 2022.04.15 (71)申请人 中国电子科技 集团公司第十 研究所 地址 610000 四川省成 都市金牛区茶店子 东街48号 (72)发明人 杨露 黄细凤 代翔  (74)专利代理 机构 成都九鼎天元知识产权代理 有限公司 51214 专利代理师 周浩杰 (51)Int.Cl. G06F 40/58(2020.01) G06F 40/30(2020.01) (54)发明名称 一种领域平行语料的生成方法与翻译模型 的训练方法 (57)摘要 本发明公开了一种领域平行语料的生成方 法与翻译模 型的训练方法, 属于自然语 言处理中 的机器翻译领域, 包括步骤: 利用机器翻译模型 对齐平行语料素材库中篇章级语料和句子级语 料, 对齐后生成篇章级平行语料和句子级平行语 料, 组成领域平行语料。 本发明可生成领域平行 语料, 实现监督式机器翻译模型自更新, 具有通 用性, 同时提升了领域平行语料的内容质量, 保 证了翻译过程中领域术语翻译的正确性, 降低了 成本, 实现了监督式机器翻译中领域平行语料生 成和机器翻译两部分的自循环, 同时提升了效 率。 权利要求书1页 说明书6页 附图5页 CN 114742077 A 2022.07.12 CN 114742077 A 1.一种领域平行语料的生成方法, 其特 征在于, 包括 步骤: 利用机器翻译模型对齐平行语料素材库中篇章级语料和句子级语料, 对齐后生成篇章 级平行语料和句子级平行语料, 组成领域平行语料。 2.根据权利要求1所述的一种领域平行语料的生成方法, 其特 征在于, 包括子步骤: 利用开放平行语料初始化训练监 督式机器翻译模型; 采集双语网站内容并解析素材标题、 内容和报道时间生成语料素材, 存入平行语料素 材库; 篇章级平行语料对齐子步骤: 对所述平行语料素材库中一篇原文素材和一篇译文素材 计算它们的报道时间差, 匹配翻译原文素材标题中的领域术语, 如报道时间差大于预设的 时间差阈值则不是篇章级平行语料, 如小于预设的时间差阈值, 则用初始化后的监督式机 器翻译模型比较两篇素材标题内容的相似性, 如大于预设的标题内容相似性阈值时, 则判 断它们为篇章级平行语料, 否则为非篇 章级平行语料并停止处 理; 仅对判断为篇章级平行语料的情况进入句子级平行语料对齐子步骤: 针对篇章级平行 语料完成原文和译文篇章分句, 匹配翻译原文句中的领域术语, 利用初始化后的监督式机 器翻译模型比较其任意两个原文和译文句子的内容相似程度, 如高于预设的句子翻译性能 阈值, 则判断为句子级平行语料, 否则为非句子级平行语料并停止处 理。 3.一种翻译模型的训练方法, 其特征在于, 包括步骤: 用权利要求1中所述方法生成的 句子级平行语料更新机器翻译模型, 再利用更新后的机器翻译模型生成领域平行语料; 领 域平行语料的生成过程和机器翻译模型的更新过程各自循环。 4.根据权利要求3所述的一种翻译模型的训练方法, 其特征在于, 所述开放平行语料包 括开放域公开平行语料和开放域翻译接口, 所述监督式机器翻译模型包括Bert ‑ Transformer翻译模型。 5.根据权利要求3所述的一种翻译模型的训练方法, 其特征在于, 所述采集双语网站内 容并解析 素材标题、 内容和报道时间生成语料 素材, 存入平行语料 素材库, 包括子步骤: 调用语料素材表, 判断其中是否已存在素材报道时间和标题均相同的素材, 若存在将 采集的素 材丢弃; 不存在, 将采集的素 材加入到语料 素材表。 6.根据权利要求4所述的一种翻译模型的训练方法, 其特征在于, 针对Bert ‑ Transformer翻译模 型, 将计算译文和中文素材标题文本的r ouge值作为内容相似性比较的 参数。 7.根据权利要求4所述的一种翻译模型的训练方法, 其特征在于, 所述开放域公开平行 语料通过爬虫获取。 8.根据权利要求3所述的一种翻译模型的训练方法, 其特征在于, 包括子步骤: 设置句 子级平行语料列表, 用于存 储权利要求1中所述方法生成的句子级平行语料。权 利 要 求 书 1/1 页 2 CN 114742077 A 2一种领域平行语 料的生成方 法与翻译模型的训练方 法 技术领域 [0001]本发明涉及自然语言处理中的机器翻译领域, 更为具体 的, 涉及一种领域平行语 料的生成方法与翻译模型的训练方法。 背景技术 [0002]机器翻译属于计算语言学的范畴, 其研究借由计算机程序, 即机器翻译模型, 将文 字从一种自然语言翻译成另一种自然语言的技术。 机器翻译模型分为监督式和无监督式两 种。 借由平行语料生成技术, 可使得监督式翻译模 型实现更复杂的文本自动翻译, 能够处理 不同的文法结构、 辞汇辨识和惯用语的对应。 [0003]平行语料是指与译文并行放置的文本。 平行文本对齐技术是指确定平行文本原文 和译文的技术。 原文 是指需要翻译的文本, 译文 是与原文内容一致的对应语言的文本, 如韩 中翻译中, 韩文文本为原文、 中文文本为译文。 平行语料生成是指实现句子层面上的平行文 本对齐, 生成平行语料集合, 即平行语料库。 翻译模型训练是指采用领域平行语料库中的平 行语料, 训练监 督式机器翻译模型, 使其能够将译 文准确地翻译成原文。 [0004]领域平行语料是指关于某个具体领域, 如军事领域、 科技领域等的平行语料。 相比 如开放域平行语料, 领域平行语料往往含有较多领域知识, 如领域术语、 领域文本表述方 式、 领域行文规范等。 监督式机器翻译模型需要从平行语料中学习领域翻译知识。 相比使用 开放域平行语料训练模型, 使用领域平行语料训练的翻译模型 具有更好的应用效果。 [0005]平行语料的获取方法主要有两种, 一是从各种数据库或者文献中人工挖掘平行语 料, 例如各国法律文、 专利数据库等; 二是通过网络爬虫采集双语网站资源, 处理后生成平 行语料。 [0006]以往关于平行语料生成的研究主要注重平行语料的规模和质量, 很少涉及对领域 平行语料生成的研究。 同时, 由于领域语料的收集和加工难度比较大, 针对某个具体领域的 平行语料生成往往依靠人工翻译完成, 这就使得目前 的领域语料特别少, 甚至某些领域根 本没有能够满足机器翻译模型训练的语料库。 [0007]目前, 现有技术存在如下技术问题: 1)领域平行语料稀少, 不能满足机器翻译模型 的使用需求: 2)已有的领域平行语料通用性差; 3)现有平行语料库生成过程中, 存在无法保 证领域术语正确翻译的问题; 4)人工确定生成领域平行语料的成本高, 效率低。 发明内容 [0008]本发明的目的在于克服现有技术的不足, 提供一种领域平行语料的生成方法与翻 译模型的训练方法, 生成领域平行语料, 实现监督式机器翻译模型自更新, 具有通用性, 同 时提升了领域平行语料 的内容质量, 保证了翻译过程中领域术语翻译的正确 性, 降低了成 本, 实现了监督式机器翻译中领域平行语料生成和机器翻译两部分的自循环, 同时提升了 效率。 [0009]本发明的目的是通过以下 方案实现的:说 明 书 1/6 页 3 CN 114742077 A 3

.PDF文档 专利 一种领域平行语料的生成方法与翻译模型的训练方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种领域平行语料的生成方法与翻译模型的训练方法 第 1 页 专利 一种领域平行语料的生成方法与翻译模型的训练方法 第 2 页 专利 一种领域平行语料的生成方法与翻译模型的训练方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:47:50上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。