说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111642396.6 (22)申请日 2021.12.2 9 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦二层 (72)发明人 郭振 吴文权  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 代理人 杜月 (51)Int.Cl. G06F 16/332(2019.01) G06F 40/211(2020.01) G06F 40/284(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 对话模型的训练方法、 装置、 电子设备及存 储介质 (57)摘要 本公开提供了一种对话模型的训练方法、 装 置、 电子设备及存储介质, 涉及计算机技术领域, 具体涉及自然语言处理和深度学习等人工智能 技术领域。 具体实施方案为: 获取训练样本; 基于 训练样本对对话模型进行训练, 以获取多个回复 文本各自的文本识别概率; 根据文本识别概率、 顺序标签和正负样本标签, 确定对话模型的文本 生成损失和文本排序损失; 基于文本生成损失和 文本排序损失, 对对话模型进行调整, 以生成目 标对话模型。 由此, 通过引入文本排序损失对对 话模型进行训练, 可以提高相关性高的回复文本 在训练过程中的影 响力, 同时可以提高区分相关 性低的回复文本的能力, 使 得训练好的对话模型 可以输出相关性高的回复文本, 提升目标对话模 型的准确性。 权利要求书3页 说明书10页 附图3页 CN 114416943 A 2022.04.29 CN 114416943 A 1.一种对话模型的训练方法, 包括: 获取训练样本, 所述训练样本包括样本对话文本、 所述样本对话文本的多个回复文本, 所述回复文本携带顺序标签和正负样本标签, 所述顺序标签由对所述多个回复文本与所述 样本对话文本的相关性进行排序确定; 基于所述训练样本对对话模型进行训练, 以获取所述多个回复文本各自的文本识别概 率; 根据所述文本识别概率、 所述顺序标签和所述正负样本标签, 确定所述对话模型的文 本生成损失和文本排序损失; 基于所述文本生成损 失和文本排序损 失, 对所述对话模型进行调整, 以生成目标对话 模型。 2.根据权利要求1所述的方法, 其中, 所述文本生成损失的确定过程, 包括: 根据所述 正负样本标签和所述 顺序标签, 确定所述样本对话文本的真实回复文本; 获取所述真实回复文本的文本识别概 率, 确定所述文本生成损失。 3.根据权利要求2所述的方法, 其中, 所述根据所述正负样本标签和所述顺序标签, 确 定所述样本对话文本的真实回复文本, 包括: 选取所述正负样本标签标识为 正样本的回复文本作为 候选回复文本; 基于所述候选回复文本的顺序标签, 对所述候选回复文本进行排序, 将排在首位的候 选回复文本, 确定为所述真实回复文本 。 4.根据权利要求1所述的方法, 其中, 所述文本排序损失的确定过程, 包括: 对所述多个回复文本进行两 两组合, 生成多个文本组; 基于所述文本组中两个回复文本各自的所述顺序标签和所述文本识别概率, 确定所述 文本组的概 率差值; 基于所述多个文本组各自的概 率差值, 确定所述文本排序损失。 5.根据权利要求1所述的方法, 其中, 所述文本排序损失的确定过程, 包括: 对所述多个回复文本的识别概 率按照从高到底的顺序进行排序; 针对任一 回复文本, 获取位于所述任一 回复文本的文本识别概率后 面的后序回复文本 的文本识别概 率; 基于所述任一 回复文本的文本识别概率和每个所述后序回复文本的文本识别概率, 确 定识别概率之和, 并将所述任一回复文本的文本识别概率与所述识别概率之和做比值, 确 定所述任一回复文本的概 率比; 基于每个所述回复文本的概 率比, 确定所述文本排序损失。 6.根据权利要求1 ‑5任一项所述的方法, 其中, 所述多个回复文本各自的文本识别概率 的获取过程, 包括: 获取所述对话模型基于所述样本对话文本, 输出的词表中每 个候选词的概 率; 获取所述词表中属于任一 回复文本的目标候选词, 并将所述目标候选词的概率相乘得 到所述任一回复文本的文本识别概 率。 7.一种对话模型的训练装置, 包括: 获取模块, 用于获取训练样本, 所述训练样本包括样本对话文本、 所述样本对话文本的 多个回复文本, 所述回复文本携带顺序标签和 正负样本标签, 所述顺序标签由对所述多个权 利 要 求 书 1/3 页 2 CN 114416943 A 2回复文本与所述样本对话文本的相关性进行排序确定; 训练模块, 用于基于所述训练样本对对话模型进行训练, 以获取所述多个回复文本各 自的文本识别概 率; 确定模块, 用于根据 所述文本识别概率、 所述顺序 标签和所述正负样本标签, 确定所述 对话模型的文本生成损失和文本排序损失; 调整模块, 用于基于所述文本生成损失和文本排序损失, 对所述对话模型进行调整, 以 生成目标对话模型。 8.根据权利要求7 所述的装置, 其中, 所述确定模块, 还用于: 根据所述 正负样本标签和所述 顺序标签, 确定所述样本对话文本的真实回复文本; 获取所述真实回复文本的文本识别概 率, 确定所述文本生成损失。 9.根据权利要求8所述的装置, 其中, 所述确定模块, 还用于: 选取所述正负样本标签标识为 正样本的回复文本作为 候选回复文本; 基于所述候选回复文本的顺序标签, 对所述候选回复文本进行排序, 将排在首位的候 选回复文本, 确定为所述真实回复文本 。 10.根据权利要求7 所述的装置, 其中, 所述确定模块, 还用于: 对所述多个回复文本进行两 两组合, 生成多个文本组; 基于所述文本组中两个回复文本各自的所述顺序标签和所述文本识别概率, 确定所述 文本组的概 率差值; 基于所述多个文本组各自的概 率差值, 确定所述文本排序损失。 11.根据权利要求7 所述的装置, 其中, 所述确定模块, 还用于: 对所述多个回复文本的识别概 率按照从高到底的顺序进行排序; 针对任一 回复文本, 获取位于所述任一 回复文本的文本识别概率后 面的后序回复文本 的文本识别概 率; 基于所述任一 回复文本的文本识别概率和每个所述后序回复文本的文本识别概率, 确 定识别概率之和, 并将所述任一回复文本的文本识别概率与所述识别概率之和做比值, 确 定所述任一回复文本的概 率比; 基于每个所述回复文本的概 率比, 确定所述文本排序损失。 12.根据权利要求7 ‑11任一项所述的装置, 其中, 所述训练模块, 还用于: 获取所述对话模型基于所述样本对话文本, 输出的词表中每 个候选词的概 率; 获取所述词表中属于任一 回复文本的目标候选词, 并将所述目标候选词的概率相乘得 到所述任一回复文本的文本识别概 率。 13.一种电子设备, 包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处理器能够执行权利要求1 ‑6中任一项所述的对话模型 的训 练方法。 14.一种存储有计算机指令的非瞬时计算机可读存储介质, 其中, 所述计算机指令用于 使所述计算机执 行根据权利要求1 ‑6中任一项所述的对话模型的训练方法。权 利 要 求 书 2/3 页 3 CN 114416943 A 3

.PDF文档 专利 对话模型的训练方法、装置、电子设备及存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 对话模型的训练方法、装置、电子设备及存储介质 第 1 页 专利 对话模型的训练方法、装置、电子设备及存储介质 第 2 页 专利 对话模型的训练方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:56:29上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。