专利模型生成方法、词义消歧方法、装置、介质以及设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210613094.4 (22)申请日 2022.05.31 (71)申请人北京有竹居网络技术有限公司地址 101299 北京市平谷区林荫北街13号信息大厦802室 (72)发明人安哲成　吴培昊　马泽君　 (74)专利代理机构北京英创嘉友知识产权代理事务所(普通合伙) 11447 专利代理师温易娜 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/30(2020.01) (54)发明名称模型生成方法、词义消歧方法、装置、介质以及设备 (57)摘要本公开涉及一种模型生成方法、词义消歧方法、装置、介质以及设备，所述模型生成方法包括：获取多组平行语料，每组所述平行语料包括互为翻译的第一文本和第二文本，所述第一文本属于第一语言，所述第二文本属于第二语言；根据多组所述平行语料和预设释义集合，确定多个第一样本，每个所述第一样本包括所述第一文本、所述第一文本中的第一原始词以及该第一原始词的翻译词在所述预设释义集合中匹配的第一释义，所述翻译词是所述第二文本中与所述第一原始词匹配的词语，所述第一释义属于所述第二语言；根据多个所述第一样本生成第一分类模型。本公开可以减少生成第一分类模型的数据依赖。权利要求书3页说明书16页附图3页 CN 115017986 A 2022.09.06 CN 115017986 A 1.一种模型生成方法，其特征在于，包括：获取多组平行语料，每组所述平行语料包括互为翻译的第一文本和第二文本，所述第一文本属于第一语言，所述第二文本属于第二语言；根据多组所述平行语料和预设释义集合，确定多个第一样本，每个所述第一样本包括所述第一文本、所述第一文本中的第一原始词以及该第一原始词的翻译词在所述预设释义集合中匹配的第一释义，所述翻译词是所述第二文本中与所述第一原始词匹配的词语，所述第一释义属于所述第二语言；根据多个所述第一样本生成第一分类模型。 2.根据权利要求1所述的模型生成方法，其特征在于，所述根据多个所述第一样本生成第一分类模型，包括：根据预先训练好的第二分类模型对多个所述第一样本进行处理，确定每个所述第一样本中的第一原始词的第二释义，所述第二释义属于所述第二语言；根据携带有所述第二释义的多个所述第一样本，生成第一分类模型。 3.根据权利要求1所述的模型生成方法，其特征在于，所述预设释义集合包括多个，所述根据多组所述平行语料和预设释义集合，确定多个第一样本，包括：针对每组所述平行语料中的所述第一文本中的每一所述第一原始词，在所述第二文本中确定与该第一原始词匹配的翻译词，并根据该翻译词与目标预设释义集合中的各释义之间的相似度，为该翻译词确定匹配的所述第一释义，所述目标预设释义集合为多个所述预设释义集合中与该第一原始词匹配的预设释义集合；根据每组所述平行语料中的所述第一文本、所述第一文本中的每一所述第一原始词以及每一所述第一原始词的翻译词匹配的第一释义，确定多个所述第一样本。 4.根据权利要求3所述的模型生成方法，其特征在于，所述方法还包括：针对每组所述平行语料，对该平行语料中的所述第一文本和所述第二文本分别进行分词，得到第一词语序列和第二词语序列；对所述第一词语序列和所述第二词语序列进行词对齐处理，确定所述第一文本中的每一所述第一原始词与所述第二文本中的每一所述翻译词之间的第一映射关系；所述在所述第二文本中确定与该第一原始词匹配的翻译词，包括：根据所述第一映射关系，在所述第二文本中确定与该第一原始词匹配的所述翻译词。 5.根据权利要求2所述的模型生成方法，其特征在于，所述第二分类模型根据如下方式训练得到：根据预设文本数据获取多个第二样本，每个所述第二样本包括第三文本、第三文本中的第二原始词以及所述第二原始词的第三释义，所述第三文本属于第一语言，且所述第三释义属于所述第二语言；根据多个所述第二样本迭代更新初始第二分类模型的参数，以减小各第二样本对应的第一损失函数值，得到训练好的第二分类模型；其中，各第二样本对应的第一损失函数值通过以下过程确定：通过第二分类模型处理所述第二样本，得到第一预测释义；至少基于所述第一预测释义和所述第三释义之间的差异，确定第一损失函数值。 6.根据权利要求2所述的模型生成方法，其特征在于，所述根据预先训练好的第二分类权　利　要　求　书 1/3 页 2 CN 115017986 A 2模型对多个所述第一样本进行处理，确定每个所述第一样本中的第一原始词的第二释义，包括：根据预先训练好的所述第二分类模型对多个所述第一样本进行处理，确定每个所述第一样本的第四释义，所述第四释义属于所述第一语言；根据第二映射关系为每个所述第一样本的所述第四释义，确定所述第二释义。 7.根据权利要求6所述的模型生成方法，所述第二分类模型根据如下方式训练得到：根据预设文本数据获取多个第三样本，每个所述第三样本包括第四文本、第四文本中的第三原始词以及所述第三原始词的第五释义，所述第五释义属于第一语言；根据多个所述第三样本迭代更新初始第二分类模型的参数，以减小各第三样本对应的第二损失函数值，得到训练好的第二分类模型；其中，各第三样本对应的第二损失函数值通过以下过程确定：通过第二分类模型处理所述第三样本，得到第二预测释义；至少基于所述第二预测释义和所述第五释义之间的差异，确定第二损失函数值。 8.根据权利要求2所述的模型生成方法，所述根据携带有所述第二释义的多个所述第一样本，生成第一分类模型，包括：根据多个所述第一样本迭代更新初始第一分类模型的参数，以减小各第一样本对应的目标损失函数值，生成所述第一分类模型；其中，各第一样本对应的目标损失函数值通过以下过程确定：通过第一分类模型处理所述第一样本，得到目标预测释义；至少基于所述目标预测释义与第一标签之间的第一差异，以及所述目标预测释义与第二标签之间的第二差异，确定目标损失函数值，所述第一标签和所述第二标签分别为所述第一释义和所述第二释义。 9.一种词义消歧方法，其特征在于，包括：获取目标文本以及所述目标文本中的待消歧词，所述目标文本属于第一语言；根据第一分类模型对所述目标文本和所述待消歧词进行处理，确定所述待消歧词针对所述目标文本的目标释义，所述目标释义属于第二语言，所述第一分类模型根据权利要求 1 所述的方法得到。 10.一种模型生成装置，其特征在于，包括：第一获取模块，被配置为获取多组平行语料，每组所述平行语料包括互为翻译的第一文本和第二文本，所述第一文本属于第一语言，所述第二文本属于第二语言；第一确定模块，被配置为根据多组所述平行语料和预设释义集合，确定多个第一样本，每个所述第一样本包括所述第一文本、所述第一文本中的第一原始词以及该第一原始词的翻译词在所述预设释义集合中匹配的第一释义，所述翻译词是所述第二文本中与所述第一原始词匹配的词语，所述第一释义属于所述第二语言；第一生成模型，被配置为根据多个所述第一样本生成第一分类模型。 11.一种词义消歧装置，其特征在于，包括：第二获取模块，被配置为获取目标文本以及所述目标文本中的待消歧词，所述目标文本属于第一语言；第二确定模块，被配置为根据第一分类模型对所述目标文本和所述待消歧词进行处权　利　要　求　书 2/3 页 3 CN 115017986 A 3

专利 模型生成方法、词义消歧方法、装置、介质以及设备

专利模型生成方法、词义消歧方法、装置、介质以及设备