说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210613094.4 (22)申请日 2022.05.31 (71)申请人 北京有竹居网络技 术有限公司 地址 101299 北京市平谷区林荫北街13号 信息大厦802室 (72)发明人 安哲成 吴培昊 马泽君  (74)专利代理 机构 北京英创嘉友知识产权代理 事务所(普通 合伙) 11447 专利代理师 温易娜 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/30(2020.01) (54)发明名称 模型生成方法、 词义消歧方法、 装置、 介质以 及设备 (57)摘要 本公开涉及一种模型生 成方法、 词义消歧方 法、 装置、 介质以及设备, 所述模型生成方法包 括: 获取多组平行语料, 每组所述平行语料包括 互为翻译的第一文本和第二文本, 所述第一文本 属于第一语言, 所述第二文本属于第二语言; 根 据多组所述平行语料和预设释义集合, 确定多个 第一样本, 每个所述第一样本包括所述第一文 本、 所述第一文本中的第一原始词以及该第一原 始词的翻译词在所述预设释义集合中匹配的第 一释义, 所述翻译词是所述第二文本中与所述第 一原始词匹配的词语, 所述第一释义属于所述第 二语言; 根据多个所述第一样 本生成第一分类模 型。 本公开可以减少生成第一分类模 型的数据 依 赖。 权利要求书3页 说明书16页 附图3页 CN 115017986 A 2022.09.06 CN 115017986 A 1.一种模型生成方法, 其特 征在于, 包括: 获取多组平行语料, 每组所述平行语料包括互为翻译的第一文本和第二文本, 所述第 一文本属于第一语言, 所述第二文本属于第二语言; 根据多组所述平行语料和预设释义集合, 确定多个第一样本, 每个所述第一样本包括 所述第一文本、 所述第一文本中的第一原始词以及该第一原始词的翻译词在所述预设释义 集合中匹配的第一释义, 所述翻译词 是所述第二文本中与所述第一原始词匹配的词语, 所 述第一释义属于所述第二语言; 根据多个所述第一样本生成第一分类模型。 2.根据权利要求1所述的模型生成方法, 其特征在于, 所述根据多个所述第 一样本生成 第一分类模型, 包括: 根据预先训练好的第 二分类模型对多个所述第 一样本进行处理, 确定每个所述第 一样 本中的第一原 始词的第二释义, 所述第二释义属于所述第二语言; 根据携带有所述第二释义的多个所述第一样本, 生成第一分类模型。 3.根据权利要求1所述的模型生成方法, 其特征在于, 所述预设释义集合包括多个, 所 述根据多组所述平行语料和预设释义 集合, 确定多个第一样本, 包括: 针对每组所述平行语料中的所述第 一文本中的每一所述第 一原始词, 在所述第 二文本 中确定与该第一原始词匹配的翻译词, 并根据该翻译词与目标预设释义集合中的各释义之 间的相似度, 为该翻译词确定匹配的所述第一释义, 所述 目标预设释义集合为多个所述预 设释义集合中与该第一原 始词匹配的预设释义 集合; 根据每组所述平行语料中的所述第 一文本、 所述第 一文本中的每一所述第 一原始词以 及每一所述第一原 始词的翻译词匹配的第一释义, 确定多个所述第一样本 。 4.根据权利要求3所述的模型生成方法, 其特 征在于, 所述方法还 包括: 针对每组所述平行语料, 对该平行语料中的所述第 一文本和所述第 二文本分别进行分 词, 得到第一词语序列和第二词语序列; 对所述第一词语序列和所述第 二词语序列进行词对齐处理, 确定所述第 一文本中的每 一所述第一原 始词与所述第二文本中的每一所述翻译词之间的第一映射关系; 所述在所述第二文本中确定与该第一原 始词匹配的翻译词, 包括: 根据所述第一映射关系, 在所述第二文本中确定与该第一原 始词匹配的所述翻译词。 5.根据权利要求2所述的模型生成方法, 其特征在于, 所述第 二分类模型根据如下方式 训练得到: 根据预设文本数据获取多个第二样本, 每个所述第二样本包括第三文本、 第三文本中 的第二原始词以及所述第二原始词的第三释义, 所述第三文本属于第一语言, 且所述第三 释义属于所述第二语言; 根据多个所述第 二样本迭代更新初始第 二分类模型的参数, 以减小各第 二样本对应的 第一损失函数值, 得到训练好的第二分类模型; 其中, 各第二样本对应的第一损失函数值 通过以下 过程确定: 通过第二分类模型处 理所述第二样本, 得到第一预测释义; 至少基于所述第一预测释义和所述第三释义之间的差异, 确定第一损失函数值。 6.根据权利要求2所述的模型生成方法, 其特征在于, 所述根据 预先训练好的第 二分类权 利 要 求 书 1/3 页 2 CN 115017986 A 2模型对多个所述第一样本进行处理, 确定每个所述第一样本中的第一原始词的第二释义, 包括: 根据预先训练好的所述第 二分类模型对多个所述第 一样本进行处理, 确定每个所述第 一样本的第四释义, 所述第四释义属于所述第一语言; 根据第二映射关系为每 个所述第一样本的所述第四释义, 确定所述第二释义。 7.根据权利要求6所述的模型生成方法, 所述第二分类模型根据如下 方式训练得到: 根据预设文本数据获取多个第三样本, 每个所述第三样本包括第 四文本、 第 四文本中 的第三原 始词以及所述第三原 始词的第五释义, 所述第五释义属于第一语言; 根据多个所述第 三样本迭代更新初始第 二分类模型的参数, 以减小各第 三样本对应的 第二损失函数值, 得到训练好的第二分类模型; 其中, 各第三样本对应的第二损失函数值 通过以下 过程确定: 通过第二分类模型处 理所述第三样本, 得到第二预测释义; 至少基于所述第二预测释义和所述第五释义之间的差异, 确定第二损失函数值。 8.根据权利要求2所述的模型生成方法, 所述根据携带有所述第二释义的多个所述第 一样本, 生成第一分类模型, 包括: 根据多个所述第 一样本迭代更新初始第 一分类模型的参数, 以减小各第 一样本对应的 目标损失函数值, 生成所述第一分类模型; 其中, 各第一样本对应的目标损失函数值 通过以下 过程确定: 通过第一分类模型处 理所述第一样本, 得到目标 预测释义; 至少基于所述目标预测释义与第 一标签之间的第 一差异, 以及所述目标预测释义与第 二标签之间的第二差异, 确定目标损失函数值, 所述第一标签和所述第二标签分别为所述 第一释义和所述第二释义。 9.一种词义消歧方法, 其特 征在于, 包括: 获取目标文本以及所述目标文本中的待消歧词, 所述目标文本属于第一语言; 根据第一分类模型对所述目标文本和所述待消歧词进行处理, 确定所述待消歧词针对 所述目标文本的目标释义, 所述目标释义属于第二语 言, 所述第一分类模型根据权利要求 1 所述的方法得到 。 10.一种模型生成装置, 其特 征在于, 包括: 第一获取模块, 被配置为获取多组平行语料, 每组所述平行语料包括互为翻译的第一 文本和第二文本, 所述第一文本属于第一语言, 所述第二文本属于第二语言; 第一确定模块, 被配置为根据多组所述平行语料和预设释义集合, 确定多个第 一样本, 每个所述第一样本包括所述第一文本、 所述第一文本中的第一原始词以及该第一原始词的 翻译词在所述预设释义集合中匹配的第一释义, 所述翻译词是所述第二文本中与所述第一 原始词匹配的词语, 所述第一释义属于所述第二语言; 第一生成模型, 被 配置为根据多个所述第一样本生成第一分类模型。 11.一种词义消歧装置, 其特 征在于, 包括: 第二获取模块, 被配置为获取目标文本以及所述目标文本中的待消歧词, 所述目标文 本属于第一语言; 第二确定模块, 被配置为根据第一分类模型对所述目标文本和所述待消歧词进行处权 利 要 求 书 2/3 页 3 CN 115017986 A 3

.PDF文档 专利 模型生成方法、词义消歧方法、装置、介质以及设备

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 模型生成方法、词义消歧方法、装置、介质以及设备 第 1 页 专利 模型生成方法、词义消歧方法、装置、介质以及设备 第 2 页 专利 模型生成方法、词义消歧方法、装置、介质以及设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:14:00上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。