专利对话语句补全及模型训练方法、装置、设备和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210727958.5 (22)申请日 2022.06.23 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人苑浩　胡江鹭　孙辉丰　 (74)专利代理机构北京鸿德海业知识产权代理有限公司 1 1412 专利代理师岳凤羽 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/33(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称对话语句补全及模型训练方法、装置、设备和存储介质 (57)摘要本公开公开了一种对话语句补全及模型训练方法、装置、设备和存储介质，涉及人工智能技术领域，尤其涉及自然语言处理、人机对话等技术领域。对话语句补全模型的训练方法包括：采用编码器，对多轮对话语句样本进行编码处理，以生成语义特征，其中，所述多轮对话语句样本包括：待补全语句样本；基于所述语义特征，生成预测概率值；采用解码器，对所述语义特征进行解码处理，以生成所述待补全语句样本对应的预测完整语句；基于所述预测概率值，以及所述预测完整语句，构建总损失函数；基于所述总损失函数，调整所述编码器和所述解码器中至少一项的模型参数。本公开可以提高对话语句补全模型的准确度。权利要求书2页说明书11页附图5页 CN 115168553 A 2022.10.11 CN 115168553 A 1.一种对话语句补全模型的训练方法，所述对话补全模型包括：编码器和解码器，所述方法包括：采用所述编码器，对多轮对话语句样本进行编码处理，以生成语义特征，其中，所述多轮对话语句样本包括：待补全语句样本；基于所述语义特征，生成预测概率值；采用所述解码器，对所述语义特征进行解码处理，以生成所述待补全语句样本对应的预测完整语句；基于所述预测概率值，以及所述预测完整语句，构建总损失函数；基于所述总损失函数，调整所述编码器和所述解码器中至少一项的模型参数。 2.根据权利要求1所述的方法，其中，所述基于所述语义特征，生成预测概率值，包括：采用前馈神经网络，对所述语义特征进行前馈处理，以生成映射特征；采用归一化层，对所述映射特征进行归一化处理，以生成所述预测概率值。 3.根据权利要求1所述的方法，其中，所述基于所述预测概率值，以及所述预测完整语句，构建总损失函数，包括：基于所述预测概率值，以及所述处理单元是缺失单元的真实概率值，构建第一损失函数；基于所述预测完整语句，以及所述真实完整语句，构建第二损失函数；基于所述第一损失函数和所述第二损失函数，构建所述总损失函数。 4.根据权利要求1 ‑3任一项所述的方法，其中，所述多轮对话语句样本还包括：所述待补全语句样本的上下文语句样本；所述上下文语句样本用第一分隔符进行分隔，所述待补全语句样本用第二分隔符进行分隔，且，所述第一分隔符与所述第二分隔符不同。 5.根据权利要求1所述的方法，其中，所述编码器为T5模型中的编码器；所述解码器为所述T5模型中的解码器。 6.一种对话补全方法，包括：获取多轮对话语句，所述多轮对话语句包括：待补全语句；采用编码器，提取所述对轮对话语句的语义特征；采用解码器，基于所述语义特征，生成所述待补全语句对应的补全后的对话语句；其中，所述编码器和所述解码器是采用如权利要求1 ‑5任一项所述的方法训练的。 7.一种对话语句补全模型的训练装置，所述对话语句补全模型包括：编码器和解码器，所述装置包括：编码模块，用于采用所述编码器，对多轮对话语句样本进行编码处理，以生成语义特征，其中，所述多轮对话语句样本包括：待补全语句样本；选择模块，用于基于所述语义特征，生成预测概率值；解码模块，用于采用所述解码器，对所述语义特征进行解码处理，以生成所述待补全语句样本对应的预测完整语句；构建模块，用于基于所述预测概率值，以及所述预测完整语句，构建总损失函数；调整模块，用于基于所述总损失函数，调整所述编码器和所述解码器中至少一项的模权　利　要　求　书 1/2 页 2 CN 115168553 A 2型参数。 8.根据权利要求7 所述的装置，其中，所述选择模块进一步用于：采用前馈神经网络，对所述语义特征进行前馈处理，以生成映射特征；采用归一化层，对所述映射特征进行归一化处理，以生成所述预测概率值。 9.根据权利要求7 所述的装置，其中，所述构建模块进一步用于：基于所述预测概率值，以及所述处理单元是缺失单元的真实概率值，构建第一损失函数；基于所述预测完整语句，以及所述真实完整语句，构建第二损失函数；基于所述第一损失函数和所述第二损失函数，构建所述总损失函数。 10.根据权利要求7 ‑9任一项所述的装置，其中，所述多轮对话语句样本还包括：所述待补全语句样本的上下文语句样本；所述上下文语句样本用第一分隔符进行分隔，所述待补全语句样本用第二分隔符进行分隔，且，所述第一分隔符与所述第二分隔符不同。 11.根据权利要求7 ‑9任一项所述的装置，其中，所述编码器为T5模型中的编码器；所述解码器为所述T5模型中的解码器。 12.一种对话语句补全装置，包括：获取模块，用于获取多轮对话语句，所述多轮对话语句包括：待补全语句；编码模块，用于采用编码器，提取所述对轮对话语句的语义特征；解码模块，用于采用解码器，基于所述语义特征，生成所述待补全语句对应的补全后的对话语句；其中，所述编码器和所述解码器是采用如权利要求1 ‑5任一项所述的方法训练的。 13.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1 ‑6中任一项所述的方法。 14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1 ‑6中任一项所述的方法。 15.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1 ‑6中任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 115168553 A 3

专利 对话语句补全及模型训练方法、装置、设备和存储介质

专利对话语句补全及模型训练方法、装置、设备和存储介质