说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210727958.5 (22)申请日 2022.06.23 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 苑浩 胡江鹭 孙辉丰  (74)专利代理 机构 北京鸿德 海业知识产权代理 有限公司 1 1412 专利代理师 岳凤羽 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/33(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 对话语句补全及模型训练方法、 装置、 设备 和存储介质 (57)摘要 本公开公开了一种对话语句补全及模型训 练方法、 装置、 设备和存储介质, 涉及人工智能技 术领域, 尤其涉及自然语言处理、 人机对话等技 术领域。 对话语句补全模型的训练方法包括: 采 用编码器, 对多轮对话语句样本进行编码处理, 以生成语义特征, 其中, 所述多轮对话语句样本 包括: 待补全语句样本; 基于 所述语义特征, 生成 预测概率值; 采用解码器, 对所述语义特征进行 解码处理, 以生成所述待补全语句样本对应的预 测完整语句; 基于所述预测概率值, 以及所述预 测完整语句, 构建总损失函数; 基于所述总损失 函数, 调整所述编码器和所述解码器中至少一项 的模型参数。 本公开可以提高对话语句补全模型 的准确度。 权利要求书2页 说明书11页 附图5页 CN 115168553 A 2022.10.11 CN 115168553 A 1.一种对话语句补全模型的训练方法, 所述对话补全模型包括: 编码器和解码器, 所述 方法包括: 采用所述编码器, 对多轮对话语句样本进行编码处理, 以生成语义特征, 其中, 所述多 轮对话语句样本包括: 待补全语句样本; 基于所述语义特 征, 生成预测概 率值; 采用所述解码器, 对所述语义特征进行解码处理, 以生成所述待补全语句样本对应的 预测完整语句; 基于所述预测概 率值, 以及所述预测完整语句, 构建总损失函数; 基于所述总损失函数, 调整所述编码器和所述 解码器中至少一项的模型参数。 2.根据权利要求1所述的方法, 其中, 所述基于所述语义特 征, 生成预测概 率值, 包括: 采用前馈神经网络, 对所述语义特 征进行前馈处理, 以生成映射特 征; 采用归一 化层, 对所述映射特 征进行归一 化处理, 以生成所述预测概 率值。 3.根据权利要求1所述的方法, 其中, 所述基于所述预测概率值, 以及所述预测完整语 句, 构建总损失函数, 包括: 基于所述预测概率值, 以及所述处理单元是缺失单元的真实概率值, 构建第一损 失函 数; 基于所述预测完整语句, 以及所述真实完整语句, 构建第二损失函数; 基于所述第一损失函数和所述第二损失函数, 构建所述总损失函数。 4.根据权利要求1 ‑3任一项所述的方法, 其中, 所述多轮对话语句样本还 包括: 所述待补全语句样本的上 下文语句样本; 所述上下文语句 样本用第 一分隔符进行分隔, 所述待补全语句样本用第 二分隔符进行 分隔, 且, 所述第一分隔符与所述第二分隔符不同。 5.根据权利要求1所述的方法, 其中, 所述编码器为T5模型中的编码器; 所述解码器为所述T5模型中的解码器。 6.一种对话补全方法, 包括: 获取多轮对话语句, 所述多轮对话语句包括: 待补全语句; 采用编码器, 提取 所述对轮对话语句的语义特 征; 采用解码器, 基于所述语义特 征, 生成所述待补全语句对应的补全后的对话语句; 其中, 所述编码器和所述 解码器是采用如权利要求1 ‑5任一项所述的方法训练的。 7.一种对话语句补全模型的训练装置, 所述对话语句补全模型包括: 编码器和解码器, 所述装置包括: 编码模块, 用于采用所述编码器, 对多轮对话语句样本进行编码处理, 以生成语义特 征, 其中, 所述多轮对话语句样本包括: 待补全语句样本; 选择模块, 用于基于所述语义特 征, 生成预测概 率值; 解码模块, 用于采用所述解码器, 对所述语义特征进行解码处理, 以生成所述待补全语 句样本对应的预测完整语句; 构建模块, 用于基于所述预测概 率值, 以及所述预测完整语句, 构建总损失函数; 调整模块, 用于基于所述总损 失函数, 调整所述编码器和所述解码器中至少一项的模权 利 要 求 书 1/2 页 2 CN 115168553 A 2型参数。 8.根据权利要求7 所述的装置, 其中, 所述选择模块进一 步用于: 采用前馈神经网络, 对所述语义特 征进行前馈处理, 以生成映射特 征; 采用归一 化层, 对所述映射特 征进行归一 化处理, 以生成所述预测概 率值。 9.根据权利要求7 所述的装置, 其中, 所述构建模块进一 步用于: 基于所述预测概率值, 以及所述处理单元是缺失单元的真实概率值, 构建第一损 失函 数; 基于所述预测完整语句, 以及所述真实完整语句, 构建第二损失函数; 基于所述第一损失函数和所述第二损失函数, 构建所述总损失函数。 10.根据权利要求7 ‑9任一项所述的装置, 其中, 所述多轮对话语句样本还 包括: 所述待补全语句样本的上 下文语句样本; 所述上下文语句 样本用第 一分隔符进行分隔, 所述待补全语句样本用第 二分隔符进行 分隔, 且, 所述第一分隔符与所述第二分隔符不同。 11.根据权利要求7 ‑9任一项所述的装置, 其中, 所述编码器为T5模型中的编码器; 所述解码器为所述T5模型中的解码器。 12.一种对话语句补全 装置, 包括: 获取模块, 用于获取多轮对话语句, 所述多轮对话语句包括: 待补全语句; 编码模块, 用于采用编码器, 提取 所述对轮对话语句的语义特 征; 解码模块, 用于采用解码器, 基于所述语义特征, 生成所述待补全语句对应的补全后的 对话语句; 其中, 所述编码器和所述 解码器是采用如权利要求1 ‑5任一项所述的方法训练的。 13.一种电子设备, 包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处 理器能够执 行权利要求1 ‑6中任一项所述的方法。 14.一种存储有计算机指令的非瞬时计算机可读存储介质, 其中, 所述计算机指令用于 使所述计算机执 行权利要求1 ‑6中任一项所述的方法。 15.一种计算机程序产品, 包括计算机程序, 所述计算机程序在被处理器执行时实现根 据权利要求1 ‑6中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115168553 A 3

.PDF文档 专利 对话语句补全及模型训练方法、装置、设备和存储介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 对话语句补全及模型训练方法、装置、设备和存储介质 第 1 页 专利 对话语句补全及模型训练方法、装置、设备和存储介质 第 2 页 专利 对话语句补全及模型训练方法、装置、设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:12:40上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。