说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210553240.9 (22)申请日 2022.05.19 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 王曦阳 张睿卿 何中军 李芝  吴华  (74)专利代理 机构 北京英赛 嘉华知识产权代理 有限责任公司 1 1204 专利代理师 王达佐 马晓亚 (51)Int.Cl. G06F 40/58(2020.01) G06F 40/44(2020.01) G06F 40/242(2020.01) G06F 40/289(2020.01)G06F 40/30(2020.01) (54)发明名称 语料对齐方法、 相关装置及计算机程序 产品 (57)摘要 本公开提供了语料对齐方法、 装置、 电子设 备、 计算机可读存储介质及计算机程序产品, 涉 及机器翻译、 自然语言处理、 深度学习等人工智 能技术领域。 该方法的一具体实施方式包括: 获 取由语种不同的第一语料和第二语料构成的初 始语料对后, 将正向条件概率和反向条件概率均 大于第一阈值的初始语料对确定为目标语料对, 然后, 利用预设的翻译模型确定该目标语料对的 语义匹配概率, 最后, 对该语义匹配概率大于第 二阈值的目标语料对中的第一语料和第二语料, 进行语料对齐处理。 该实施方式可降低基于统计 学概率筛选匹配对时的概率阈值要求, 使得保证 第一语料和第二语料语义对应关系准确率的前 提下, 召回更多在统计层面上不显著的词对, 提 升语料的对齐质量。 权利要求书3页 说明书11页 附图4页 CN 114818749 A 2022.07.29 CN 114818749 A 1.一种语料对齐方法, 包括: 获取由语种不同的第一语料和第二语料构成的初始语料对; 确定所述初始语料对的正向条件概率和反向条件概率, 并将所述正向条件概率和所述 反向条件概 率均大于第一阈值的初始语料对确定为目标语料对; 利用预设的翻译模型确定所述目标语料对的语义匹配概 率; 对所述语义匹配概率大于第 二阈值的目标语料对中的第 一语料和第 二语料, 进行语料 对齐处理。 2.根据权利要求1所述的方法, 其中, 所述利用预设的翻译模型确定所述目标语料对的 语义匹配概 率, 包括: 将所述目标语料对输入预设的第 一翻译模型, 得到输出的参考第 一语料和参考第 二语 料; 其中, 所述第一翻译模型用于在所述第一语料和所述第二语料分别对应的两个语种之 间进行语料翻译; 根据所述目标语料对中的第 二语料与所述参考第 二语料之间的相似度, 生成正向翻译 概率; 根据所述目标语料对中的第 一语料与所述参考第 一语料之间的相似度, 生成反 向翻译 概率; 基于所述 正向翻译概 率和所述反向翻译概 率, 确定所述目标语料对的语义匹配概 率。 3.根据权利要求1所述的方法, 其中, 所述利用预设的翻译模型确定所述目标语料对的 语义匹配概 率, 包括: 将所述目标语料对输入预设的第 二翻译模型, 得到输出的正向关联概率; 其中, 所述第 二翻译模型用于确定将所述第一语料翻译至所述第二语料的语种下所得到内容为所述第 二语料的关联概 率; 将所述目标语料对输入预设的第 三翻译模型, 得到输出的反 向关联概率; 其中, 所述第 三翻译模型用于确定将所述第二语料翻译至所述第一语料的语种下所得到的内容为所述 第一语料的关联概 率; 基于所述 正向关联概 率和所述反向关联概 率, 确定所述目标语料对的语义匹配概 率。 4.根据权利要求1所述的方法, 还 包括: 获取初始第一语料集和初始第二语料集; 分别对所述初始第 一语料集和所述初始第 二语料集中的语料进行数据清洗, 得到清洗 后第一语料集和清洗后第二语料集; 分别对所述清洗后第 一语料集和所述清洗后第 二语料集进行分词处理, 得到处理后第 一语料集和处 理后第二语料集; 分别从所述处理后第 一语料集和所述处理后第 二语料集中, 提取出所述第 一语料和所 述第二语料。 5.根据权利要求1 ‑4中任一项所述的方法, 还 包括: 将完成所述语料对齐处 理的目标语料对确定为对齐 语料对; 基于各所述对齐语料对, 生成用于在所述第 一语料的语种与 所述第二语料的语种之间 进行语料互译的双语词典。 6.根据权利要求5所述的方法, 还 包括:权 利 要 求 书 1/3 页 2 CN 114818749 A 2分别获取各所述对齐语料对的语义信 息, 并将所述语义信 息重合度大于第 三阈值的对 齐语料对合并。 7.一种语料对齐装置, 包括: 初始语料对获取单元, 被配置成获取由语种不同的第 一语料和第 二语料构 成的初始语 料对; 目标语料对确定单元, 被配置成确定所述初始语料对的正向条件概率和反向条件概 率, 并将所述正向条件概率和所述反向条件概率均大于第一阈值的初始语料对确定为目标 语料对; 语义匹配概率计算单元, 被配置成利用预设的翻译模型确定所述目标语料对的语义匹 配概率; 语料对齐处理单元, 被配置成对所述语义匹配概率大于第 二阈值的目标语料对中的第 一语料和第二语料, 进行语料对齐处 理。 8.根据权利要求7 所述的方法, 其中, 所述语义匹配概 率计算单 元, 包括: 参考语料生成子单元, 被配置成将所述目标语料对输入预设的第一翻译模型, 得到输 出的参考第一语料和 参考第二语料; 其中, 所述第一翻译模型用于在所述第一语料和所述 第二语料分别对应的两个 语种之间进行语料翻译; 正向翻译概率生成子单元, 被配置成根据 所述目标语料对中的第 二语料与 所述参考第 二语料之间的相似度, 生成正向翻译概 率; 反向翻译概率生成子单元, 被配置成根据 所述目标语料对中的第 一语料与 所述参考第 一语料之间的相似度, 生成反向翻译概 率; 第一语义匹配概率计算子单元, 被配置成基于所述正向翻译概率和所述反向翻译概 率, 确定所述目标语料对的语义匹配概 率。 9.根据权利要求7 所述的装置, 其中, 所述语义匹配概 率计算单 元, 包括: 正向关联概率计算子单元, 被配置成将所述目标语料对输入预设的第二翻译模型, 得 到输出的正向关联概率; 其中, 所述第二翻译模型用于确定将所述第一语料翻译至所述第 二语料的语种下 所得到内容 为所述第二语料的关联概 率; 反向关联概率计算子单元, 被配置成将所述目标语料对输入预设的第三翻译模型, 得 到输出的反向关联概率; 其中, 所述第三翻译模型用于确定将所述第二语料翻译至所述第 一语料的语种下 所得到的内容 为所述第一语料的关联概 率; 第二语义匹配概率计算子单元, 被配置成基于所述正向关联概率和所述反向关联概 率, 确定所述目标语料对的语义匹配概 率。 10.根据权利要求7 所述的装置, 还 包括: 初始语料集获取 单元, 被配置成获取初始第一语料集和初始第二语料集; 语料集清洗单元, 被配置成分别对所述初始第 一语料集和所述初始第 二语料集中的语 料进行数据清洗, 得到清洗后第一语料集和清洗后第二语料集; 语料集分词单元, 被配置成分别对所述清洗后第 一语料集和所述清洗后第 二语料集进 行分词处 理, 得到处 理后第一语料集和处 理后第二语料集; 语料提取单元, 被配置成分别从所述处理后第一语料集和所述处理后第二语料集中, 提取出所述第一语料和所述第二语料。权 利 要 求 书 2/3 页 3 CN 114818749 A 3

.PDF文档 专利 语料对齐方法、相关装置及计算机程序产品

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 语料对齐方法、相关装置及计算机程序产品 第 1 页 专利 语料对齐方法、相关装置及计算机程序产品 第 2 页 专利 语料对齐方法、相关装置及计算机程序产品 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:14:55上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。