说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210688236.3 (22)申请日 2022.06.16 (71)申请人 科大讯飞股份有限公司 地址 230088 安徽省合肥市高新 开发区望 江西路666号 (72)发明人 张为泰 叶忠义 刘俊华 胡郁  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 程琛 (51)Int.Cl. G06F 40/58(2020.01) G06F 40/30(2020.01) G06F 40/289(2020.01) (54)发明名称 平行句对构建方法、 装置、 电子设备和存储 介质 (57)摘要 本发明提供一种平行句对构建方法、 装置、 电子设备和存储介质, 其中方法包括: 获取第一 语句和第二语句, 第一语句和第二语句对应不同 语种; 基于跨语种语言模型, 确定第一语句的第 一语义特征和第二语句的第二语义特征, 跨语种 语言模型是基于第一样本语句中各分词与第二 样本语句中各分词之间的词义关系训练得到的, 第一样本语句和第二样本语句对应不同语种; 基 于第一语义特征和第二语义特征之间的相似度, 构建平行句对, 本发明实施例中, 应用不同语种 的样本语句各自包含的分词之间的词义关系, 进 行模型训练, 能够使训练所得的模型性能更优, 在面向稀缺 资源语言时, 提升了句子嵌入的准确 度, 精进了平行句对的构建过程, 实现了平行句 对构建质量的提升 。 权利要求书2页 说明书17页 附图5页 CN 115062633 A 2022.09.16 CN 115062633 A 1.一种平行句对构建方法, 其特 征在于, 包括: 获取第一语句和第二语句, 所述第一语句和所述第二语句对应不同语种; 基于跨语种语言模型, 确定所述第 一语句的第 一语义特征和所述第 二语句的第 二语义 特征, 所述跨语种语言模型是基于第一样本语句中各分词 与第二样本语句中各分词之 间的 词义关系训练得到的, 所述第一样本语句和所述第二样本语句对应不同语种; 基于所述第一语义特 征和所述第二语义特 征之间的相似度, 构建平行句对。 2.根据权利要求1所述的平行句对构建方法, 其特征在于, 所述跨语种语言模型基于如 下步骤训练: 基于初始语言模型, 确定所述第一样本语句的初始第一语义特征, 以及所述第二样本 语句的初始第二语义特 征; 基于所述第 一样本语句中各分词与 所述第二样本语句中各分词之间的词义关系, 以及 所述初始第一语义特征中各分词的分词 特征与所述初始第二语义特征中各分词的分词 特 征之间的相似度, 确定词义损失; 基于所述词义损失, 对所述初始语言模型进行参数迭代, 得到跨语种语言模型。 3.根据权利要求2所述的平行句对构建方法, 其特征在于, 所述基于所述第 一样本语句 中各分词 与所述第二样本语句中各分词之 间的词义关系, 以及所述初始第一语义特征中各 分词的分词特征与所述初始第二语义特征中各分词的分词特征之 间的相似度, 确定词义损 失, 包括: 基于所述第一样本语句中各分词和所述第二样本语句中各分词之间的词义关系为同 义词或近义词的词对, 确定正样本词对; 基于所述第 一样本语句中各分词和/或所述第 二样本语句中各分词之间的词义关系非 同义词和近义词的词对, 确定负 样本词对; 基于所述正样本词对分别在所述初始第一语义特征和所述初始第二语义特征中的分 词特征之间的相似度, 以及所述负样本词对在所述初始第一语义特征和/或所述初始第二 语义特征中的分词特 征之间的相似度, 确定词义损失。 4.根据权利要求2所述的平行句对构建方法, 其特征在于, 所述基于所述词义损 失, 对 所述初始语言模型进行参数迭代, 得到跨语种语言模型, 包括: 基于初始语义特征中掩码分词的分词特征指示所述掩码分词的概率, 确定掩码损 失, 所述初始语义特 征包括所述初始第一语义特 征和/或所述初始第二语义特 征; 基于所述词义损 失和所述掩码损 失, 对所述初始语言模型进行参数迭代, 得到跨语种 语言模型。 5.根据权利要求2所述的平行句对构建方法, 其特征在于, 所述基于所述词义损 失, 对 所述初始语言模型进行参数迭代, 得到跨语种语言模型, 之后还 包括: 基于样本平行句对, 对所述 跨语种语言模型进行模型微调。 6.根据权利要求1至5中任一项所述的平行句对构建方法, 其特征在于, 任一语种的样 本语句基于如下步骤确定: 确定所述任一语种的检索词; 基于所述检索词的检索结果, 构建所述任一语种的初始语料库; 对所述初始语料库中的各语句进行语种分类, 得到各语句的语种类别;权 利 要 求 书 1/2 页 2 CN 115062633 A 2筛除所述初始语料库中语种类别非所述任一语种的语句, 得到所述任一语种的语料 库; 从所述任一语种的语料库中获取 所述任一语种的样本语句。 7.根据权利要求6所述的平行句对构建方法, 其特征在于, 所述基于所述检索词的检索 结果, 构建所述任一语种的初始语料库, 包括: 基于所述检索词的检索结果, 确定目标网站; 基于所述目标网站的网站内容, 构建所述任一语种的初始语料库; 所述目标网站为按照检索词出现频次从高到低的顺序排列时, 前预设数量个检索结果 对应的网站。 8.根据权利要求6所述的平行句对构建方法, 其特征在于, 所述对所述初始语料库中的 各语句进行语种分类, 得到各语句的语种类别, 包括: 基于语种分类模型, 确定所述初始语料库中的各语句的语种类别; 所述语种分类模型包括掩码语言层和多分类层, 所述掩码语言层基于掩码语句以及所 述掩码语句的掩码分词训练得到, 所述多分类层基于所述掩码语句以及所述掩码 语句的语 种类别, 联合所述掩码语言层训练得到 。 9.根据权利要求6所述的平行句对构建方法, 其特征在于, 所述对所述初始语料库中的 各语句分别进行语种分类, 得到各语句的语种类别, 之后还 包括: 基于边界判别模型的语义编码层, 对所述初始语料库中的各语句进行语义编码, 得到 各语句的语义特 征; 基于所述边界判别模型的边界判别层, 对所述各语句的语义特征进行所述各语句的语 种类别下的边界判别, 得到所述各语句的边界判别结果; 基于所述各语句的边界判别结果, 对所述各语句进行分句。 10.一种平行句对构建装置, 其特 征在于, 包括: 语句获取单元, 用于获取第一语句和第二语句, 所述第一语句和所述第二语句对应不 同语种; 语义特征提取单元, 用于基于跨语种语言模型, 确定所述第一语句的第一语义特征和 所述第二语句的第二语义特征, 所述跨语种语言模型是基于第一样本语句中各分词与第二 样本语句中各分词之间的词义关系训练得到的, 所述第一样本语句和所述第二样本语句对 应不同语种; 平行句对构建单元, 用于基于所述第一语义特征和所述第二语义特征之间的相似度, 构建平行句对。 11.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运 行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至9任一项所 述的平行句对构建方法。 12.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算 机程序被处 理器执行时实现如权利要求1至9任一项所述的平行句对构建方法。权 利 要 求 书 2/2 页 3 CN 115062633 A 3

.PDF文档 专利 平行句对构建方法、装置、电子设备和存储介质

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 平行句对构建方法、装置、电子设备和存储介质 第 1 页 专利 平行句对构建方法、装置、电子设备和存储介质 第 2 页 专利 平行句对构建方法、装置、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:12:46上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。