说明:收录全网最新的团体标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210394030.X (22)申请日 2022.04.15 (71)申请人 中国电子科技 集团公司第十 研究所 地址 610000 四川省成 都市金牛区茶店子 东街48号 (72)发明人 杨露 黄细凤 代翔 (74)专利代理 机构 成都九鼎天元知识产权代理 有限公司 51214 专利代理师 周浩杰 (51)Int.Cl. G06F 40/58(2020.01) G06F 40/30(2020.01) (54)发明名称 一种领域平行语料的生成方法与翻译模型 的训练方法 (57)摘要 本发明公开了一种领域平行语料的生成方 法与翻译模 型的训练方法, 属于自然语 言处理中 的机器翻译领域, 包括步骤: 利用机器翻译模型 对齐平行语料素材库中篇章级语料和句子级语 料, 对齐后生成篇章级平行语料和句子级平行语 料, 组成领域平行语料。 本发明可生成领域平行 语料, 实现监督式机器翻译模型自更新, 具有通 用性, 同时提升了领域平行语料的内容质量, 保 证了翻译过程中领域术语翻译的正确性, 降低了 成本, 实现了监督式机器翻译中领域平行语料生 成和机器翻译两部分的自循环, 同时提升了效 率。 权利要求书1页 说明书6页 附图5页 CN 114742077 A 2022.07.12 CN 114742077 A 1.一种领域平行语料的生成方法, 其特 征在于, 包括 步骤: 利用机器翻译模型对齐平行语料素材库中篇章级语料和句子级语料, 对齐后生成篇章 级平行语料和句子级平行语料, 组成领域平行语料。 2.根据权利要求1所述的一种领域平行语料的生成方法, 其特 征在于, 包括子步骤: 利用开放平行语料初始化训练监 督式机器翻译模型; 采集双语网站内容并解析素材标题、 内容和报道时间生成语料素材, 存入平行语料素 材库; 篇章级平行语料对齐子步骤: 对所述平行语料素材库中一篇原文素材和一篇译文素材 计算它们的报道时间差, 匹配翻译原文素材标题中的领域术语, 如报道时间差大于预设的 时间差阈值则不是篇章级平行语料, 如小于预设的时间差阈值, 则用初始化后的监督式机 器翻译模型比较两篇素材标题内容的相似性, 如大于预设的标题内容相似性阈值时, 则判 断它们为篇章级平行语料, 否则为非篇 章级平行语料并停止处 理; 仅对判断为篇章级平行语料的情况进入句子级平行语料对齐子步骤: 针对篇章级平行 语料完成原文和译文篇章分句, 匹配翻译原文句中的领域术语, 利用初始化后的监督式机 器翻译模型比较其任意两个原文和译文句子的内容相似程度, 如高于预设的句子翻译性能 阈值, 则判断为句子级平行语料, 否则为非句子级平行语料并停止处 理。 3.一种翻译模型的训练方法, 其特征在于, 包括步骤: 用权利要求1中所述方法生成的 句子级平行语料更新机器翻译模型, 再利用更新后的机器翻译模型生成领域平行语料; 领 域平行语料的生成过程和机器翻译模型的更新过程各自循环。 4.根据权利要求3所述的一种翻译模型的训练方法, 其特征在于, 所述开放平行语料包 括开放域公开平行语料和开放域翻译接口, 所述监督式机器翻译模型包括Bert ‑ Transformer翻译模型。 5.根据权利要求3所述的一种翻译模型的训练方法, 其特征在于, 所述采集双语网站内 容并解析 素材标题、 内容和报道时间生成语料 素材, 存入平行语料 素材库, 包括子步骤: 调用语料素材表, 判断其中是否已存在素材报道时间和标题均相同的素材, 若存在将 采集的素 材丢弃; 不存在, 将采集的素 材加入到语料 素材表。 6.根据权利要求4所述的一种翻译模型的训练方法, 其特征在于, 针对Bert ‑ Transformer翻译模 型, 将计算译文和中文素材标题文本的r ouge值作为内容相似性比较的 参数。 7.根据权利要求4所述的一种翻译模型的训练方法, 其特征在于, 所述开放域公开平行 语料通过爬虫获取。 8.根据权利要求3所述的一种翻译模型的训练方法, 其特征在于, 包括子步骤: 设置句 子级平行语料列表, 用于存 储权利要求1中所述方法生成的句子级平行语料。权 利 要 求 书 1/1 页 2 CN 114742077 A 2一种领域平行语 料的生成方 法与翻译模型的训练方 法 技术领域 [0001]本发明涉及自然语言处理中的机器翻译领域, 更为具体 的, 涉及一种领域平行语 料的生成方法与翻译模型的训练方法。 背景技术 [0002]机器翻译属于计算语言学的范畴, 其研究借由计算机程序, 即机器翻译模型, 将文 字从一种自然语言翻译成另一种自然语言的技术。 机器翻译模型分为监督式和无监督式两 种。 借由平行语料生成技术, 可使得监督式翻译模 型实现更复杂的文本自动翻译, 能够处理 不同的文法结构、 辞汇辨识和惯用语的对应。 [0003]平行语料是指与译文并行放置的文本。 平行文本对齐技术是指确定平行文本原文 和译文的技术。 原文 是指需要翻译的文本, 译文 是与原文内容一致的对应语言的文本, 如韩 中翻译中, 韩文文本为原文、 中文文本为译文。 平行语料生成是指实现句子层面上的平行文 本对齐, 生成平行语料集合, 即平行语料库。 翻译模型训练是指采用领域平行语料库中的平 行语料, 训练监 督式机器翻译模型, 使其能够将译 文准确地翻译成原文。 [0004]领域平行语料是指关于某个具体领域, 如军事领域、 科技领域等的平行语料。 相比 如开放域平行语料, 领域平行语料往往含有较多领域知识, 如领域术语、 领域文本表述方 式、 领域行文规范等。 监督式机器翻译模型需要从平行语料中学习领域翻译知识。 相比使用 开放域平行语料训练模型, 使用领域平行语料训练的翻译模型 具有更好的应用效果。 [0005]平行语料的获取方法主要有两种, 一是从各种数据库或者文献中人工挖掘平行语 料, 例如各国法律文、 专利数据库等; 二是通过网络爬虫采集双语网站资源, 处理后生成平 行语料。 [0006]以往关于平行语料生成的研究主要注重平行语料的规模和质量, 很少涉及对领域 平行语料生成的研究。 同时, 由于领域语料的收集和加工难度比较大, 针对某个具体领域的 平行语料生成往往依靠人工翻译完成, 这就使得目前 的领域语料特别少, 甚至某些领域根 本没有能够满足机器翻译模型训练的语料库。 [0007]目前, 现有技术存在如下技术问题: 1)领域平行语料稀少, 不能满足机器翻译模型 的使用需求: 2)已有的领域平行语料通用性差; 3)现有平行语料库生成过程中, 存在无法保 证领域术语正确翻译的问题; 4)人工确定生成领域平行语料的成本高, 效率低。 发明内容 [0008]本发明的目的在于克服现有技术的不足, 提供一种领域平行语料的生成方法与翻 译模型的训练方法, 生成领域平行语料, 实现监督式机器翻译模型自更新, 具有通用性, 同 时提升了领域平行语料 的内容质量, 保证了翻译过程中领域术语翻译的正确 性, 降低了成 本, 实现了监督式机器翻译中领域平行语料生成和机器翻译两部分的自循环, 同时提升了 效率。 [0009]本发明的目的是通过以下 方案实现的:说 明 书 1/6 页 3 CN 114742077 A 3
专利 一种领域平行语料的生成方法与翻译模型的训练方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助1.5元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助1.5元下载
本文档由 人生无常 于
2024-03-18 17:47:50
上传分享
举报
下载
原文档
(673.2 KB)
分享
友情链接
DB1304-T 432-2023 专利价值评估技术规范 邯郸市.pdf
GB-T 16902.5-2017 设备用图形符号表示规则 第5部分:图标的设计指南.pdf
GB-T 33647-2017 车用汽油中硅含量的测定 电感耦合等离子体发射光谱法.pdf
T-SDWL 0002—2023 智慧物流园区停车系统功能要求.pdf
GB-T 37950-2019 信息安全技术 桌面云安全技术要求.pdf
GB 15084-2013 机动车辆 间接视野装置 性能和安装要求.pdf
奇安信 2022年上半年网络安全应急响应分析报告.pdf
野村深度报告 日本疫情后的消费复苏情况 2022.pdf
T-CMAX 116-01—2020 自动驾驶车辆道路测试能力评估内容与方法.pdf
专利 敏感数据识别方法和装置.PDF
GB-T 19557.5-2017 植物品种特异性、一致性和稳定性测试指南 大白菜.pdf
QIAC 量子安全技术白皮书 2020.pdf
T-GDC 19—2019 埋地用双高筋增强聚乙烯 HDPE 缠绕管.pdf
DB35-T 1627-2016 水利风景资源评价标准 福建省.pdf
杭州市公共数据授权运营实施方案2.21.pdf
TCII001 网络安全人员角色分类和能力要求框架 2019.pdf
YD-T 4043-2022 基于人工智能的多中心医疗数据协同分析平台参考架构.pdf
alienvault 业内人士指南之应急响应 insiders guide incident response 英文版.pdf
GB-T 35680-2017 液体材料微波频段使用开口同轴探头的电磁参数测量方法.pdf
GB-T 18386.1-2021 电动汽车能量消耗量和续驶里程试验方法 第1部分:轻型汽车.pdf
1
/
3
13
评价文档
赞助1.5元 点击下载(673.2 KB)
回到顶部
×
微信扫码支付
1.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。