说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210562170.3 (22)申请日 2022.05.23 (65)同一申请的已公布的文献号 申请公布号 CN 114648032 A (43)申请公布日 2022.06.21 (73)专利权人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 杨韬  (74)专利代理 机构 华进联合专利商标代理有限 公司 44224 专利代理师 杨欢 (51)Int.Cl. G06F 40/30(2020.01) G06F 16/332(2019.01)G06F 16/33(2019.01) G06N 3/08(2006.01) G06N 3/04(2006.01) (56)对比文件 CN 113204611 A,2021.08.0 3 审查员 王俊杰 (54)发明名称 语义理解模 型的训练方法、 装置和计算机设 备 (57)摘要 本申请结合人工智能技术, 涉及一种语义理 解模型的训练方法、 装置、 计算机设备、 存储介质 和计算机程序产品。 所述方法包括: 获取对应于 同一问题的至少一个训练样本, 通过待训练的语 义理解模型对至少一个训练样 本进行处理, 输出 与同一问题对应的至少两个预测结果, 基于预测 结果中的至少一个确定语义理解损失, 并根据至 少两个预测结果间的差异确定散度损失; 基于语 义理解损失和散度损失构建训练损失函数; 根据 训练损失函数对待训练的语义理解模型进行训 练, 直至达到结束条件时停止训练, 得到训练完 成的语义理解模 型, 训练完成的语义理解模型用 于进行知识问答匹配。 采用本方法能够提高机器 阅读理解的准确性和稳定性。 权利要求书4页 说明书19页 附图6页 CN 114648032 B 2022.08.19 CN 114648032 B 1.一种语义理解模型的训练方法, 其特 征在于, 所述方法包括: 对于一个问题, 构造对应于所述问题的多个候选同义样本, 各候选同义样本分别具有 不同的表达方式; 对所述多个候选同义样本与 所述问题进行同义判别, 以从所述多个候选同义样本 中确 定与所述问题相同含义的至少一个目标同义样本; 基于所述至少一个目标同义样本, 获取对应于同一问题的至少一个训练样本, 所述训 练样本包括与所述同一问题对应的目标同义样本、 以及 包含有与所述目标同义样本相匹配 的答案的段落样本; 在待训练的语义理解模型对与所述同一问题对应的至少两个训练样本进行处理的情 况下, 由待训练的语义理解模型对所述至少 两个训练样本均进行相同的处理, 分别输出各 个训练样本对应的预测结果; 基于所述预测结果中的至少一个确定语义理解损失, 并根据至少两个预测结果间的差 异确定散度损失; 基于所述语义理解损失和所述散度损失构建训练损失函数; 根据所述训练损失函数对所述待训练 的语义理解模型进行训练, 直至达到结束条件时 停止训练, 得到训练完成的语义理解模型, 训练完成的语义理解模型用于进行知识问答匹 配。 2.根据权利要求1所述的方法, 其特征在于, 所述构造对应于所述问题的多个候选同义 样本, 包括: 获取对应于所述问题的原始样本, 并对所述原始样本进行分词处理, 得到对应的词序 列; 将所述词序列输入至编码器中, 输出对应于所述词序列的语义向量; 通过解码器对所述词序列的语义向量进行解码处理, 得到与 所述原始样本含义相同的 候选同义样本 。 3.根据权利要求1所述的方法, 其特征在于, 所述构造对应于所述问题的多个候选同义 样本, 包括: 获取对应于所述问题的原 始样本; 对所述原始样本进行不同语种间的回译, 以生成与所述原始样本同义表达的候选同义 样本。 4.根据权利要求1所述的方法, 其特征在于, 所述构造对应于所述问题的多个候选同义 样本, 包括: 获取对应于所述问题的原 始样本; 通过同义词表, 替换所述原始样本中的至少一个词语, 以生成与所述原始样本同义表 达的候选同义样本 。 5.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 在待训练 的语义理解模型对表征同一问题的一个训练样本进行处理的情况下, 通过待 训练的语义理解模型, 对同一个训练样本进行至少 两次的模型处理过程, 得到至少 两个预 测结果; 其中, 每一次的模型处理过程均对相 应输入的训练样本进行特征提取得到对应的 中间特征, 并基于所述中间特征确定特征表示, 通过特征表示进行预测; 其中, 各次模型处权 利 要 求 书 1/4 页 2 CN 114648032 B 2理过程中的特 征表示均不相同。 6.根据权利要求5所述的方法, 其特征在于, 所述通过待训练的语义理解模型, 对 同一 个训练样本进行至少两次的模型处 理过程, 得到 至少两个预测结果, 包括: 通过待训练的语义理解模型对所述训练样本进行特征提取, 得到所述训练样本的中间 特征; 将所述中间特征作为首次预测的特征表示进行预测, 输出所述训练样本的第 一预测结 果; 基于所述第 一预测结果确定待施加的扰动, 并基于所述中间特征和所述扰动确定再次 预测所对应的特 征表示; 基于所述再次预测所对应的特 征表示进行 预测, 输出 所述训练样本的第二预测结果。 7.根据权利要求6所述的方法, 其特征在于, 在待训练的语义理解模型对表征同一问题 的一个训练样本进行 处理的情况下, 所述基于所述预测结果中的至少一个确定语义理解损 失, 并根据所述至少两个预测结果间的差异确定 散度损失, 包括: 基于所述第二预测结果确定语义理解损失; 基于所述第一预测结果与所述第二预测结果间的差异, 确定 散度损失。 8.根据权利要求1所述的方法, 其特征在于, 所述由待训练 的语义理解模型对所述至少 两个训练样本均进行相同的处 理, 分别输出 各个训练样本对应的预测结果, 包括: 确定与所述同一问题对应的多个训练样本; 分别将各训练样本输入至待训练的语义理解模型中, 由所述待训练的语义理解模型进 行特征提取, 得到各个训练样本的特 征表示; 基于各个训练样本的特 征表示进行 预测, 输出 各个训练样本的预测结果。 9.根据权利要求1所述的方法, 其特征在于, 在待训练的语义理解模型对与 所述同一问 题对应的至少两个训练样本进 行处理的情况下, 所述基于所述预测结果中的至少一个确定 语义理解损失, 并根据至少两个预测结果间的差异确定 散度损失, 包括: 基于多个训练样本各自的预测结果, 确定语义理解损失; 基于所述多个训练样本中每两个预测结果之间的差异, 确定 散度损失。 10.根据权利要求1至9中任一项所述的方法, 其特 征在于, 所述方法还 包括: 获取待回答的目标问题文本, 并确定与 所述目标问题文本相关联的至少一个目标段落 文本; 将所述目标问题文本与所述至少一个目标段落文本进行拼接, 得到至少一个输入序 列; 通过所述训练完成的语义理解模型对所述至少一个输入序列进行处理, 输出与所述目 标问题文本对应的答案 。 11.一种语义理解模型的训练装置, 其特 征在于, 所述装置包括: 构造模块, 用于对于一个问题, 构造对应于所述问题的多个候选同义样本, 各候选同义 样本分别具有不同的表达方式; 对所述多个候选同义样本与所述问题进行同义判别, 以从 所述多个候选同义样本中确定与所述问题相同含义的至少一个目标同义样本; 获取模块, 用于基于所述至少一个目标同义样本, 获取对应于同一问题的至少一个训 练样本, 所述训练样本包括与所述同一问题对应的目标同义样本、 以及包含有与所述 目标权 利 要 求 书 2/4 页 3 CN 114648032 B 3

.PDF文档 专利 语义理解模型的训练方法、装置和计算机设备

文档预览
中文文档 30 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 语义理解模型的训练方法、装置和计算机设备 第 1 页 专利 语义理解模型的训练方法、装置和计算机设备 第 2 页 专利 语义理解模型的训练方法、装置和计算机设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:14:52上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。