专利对话模型的训练方法、装置、电子设备及存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111642396.6 (22)申请日 2021.12.2 9 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦二层 (72)发明人郭振　吴文权　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 代理人杜月 (51)Int.Cl. G06F 16/332(2019.01) G06F 40/211(2020.01) G06F 40/284(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称对话模型的训练方法、装置、电子设备及存储介质 (57)摘要本公开提供了一种对话模型的训练方法、装置、电子设备及存储介质，涉及计算机技术领域，具体涉及自然语言处理和深度学习等人工智能技术领域。具体实施方案为：获取训练样本；基于训练样本对对话模型进行训练，以获取多个回复文本各自的文本识别概率；根据文本识别概率、顺序标签和正负样本标签，确定对话模型的文本生成损失和文本排序损失；基于文本生成损失和文本排序损失，对对话模型进行调整，以生成目标对话模型。由此，通过引入文本排序损失对对话模型进行训练，可以提高相关性高的回复文本在训练过程中的影响力，同时可以提高区分相关性低的回复文本的能力，使得训练好的对话模型可以输出相关性高的回复文本，提升目标对话模型的准确性。权利要求书3页说明书10页附图3页 CN 114416943 A 2022.04.29 CN 114416943 A 1.一种对话模型的训练方法，包括：获取训练样本，所述训练样本包括样本对话文本、所述样本对话文本的多个回复文本，所述回复文本携带顺序标签和正负样本标签，所述顺序标签由对所述多个回复文本与所述样本对话文本的相关性进行排序确定；基于所述训练样本对对话模型进行训练，以获取所述多个回复文本各自的文本识别概率；根据所述文本识别概率、所述顺序标签和所述正负样本标签，确定所述对话模型的文本生成损失和文本排序损失；基于所述文本生成损失和文本排序损失，对所述对话模型进行调整，以生成目标对话模型。 2.根据权利要求1所述的方法，其中，所述文本生成损失的确定过程，包括：根据所述正负样本标签和所述顺序标签，确定所述样本对话文本的真实回复文本；获取所述真实回复文本的文本识别概率，确定所述文本生成损失。 3.根据权利要求2所述的方法，其中，所述根据所述正负样本标签和所述顺序标签，确定所述样本对话文本的真实回复文本，包括：选取所述正负样本标签标识为正样本的回复文本作为候选回复文本；基于所述候选回复文本的顺序标签，对所述候选回复文本进行排序，将排在首位的候选回复文本，确定为所述真实回复文本。 4.根据权利要求1所述的方法，其中，所述文本排序损失的确定过程，包括：对所述多个回复文本进行两两组合，生成多个文本组；基于所述文本组中两个回复文本各自的所述顺序标签和所述文本识别概率，确定所述文本组的概率差值；基于所述多个文本组各自的概率差值，确定所述文本排序损失。 5.根据权利要求1所述的方法，其中，所述文本排序损失的确定过程，包括：对所述多个回复文本的识别概率按照从高到底的顺序进行排序；针对任一回复文本，获取位于所述任一回复文本的文本识别概率后面的后序回复文本的文本识别概率；基于所述任一回复文本的文本识别概率和每个所述后序回复文本的文本识别概率，确定识别概率之和，并将所述任一回复文本的文本识别概率与所述识别概率之和做比值，确定所述任一回复文本的概率比；基于每个所述回复文本的概率比，确定所述文本排序损失。 6.根据权利要求1 ‑5任一项所述的方法，其中，所述多个回复文本各自的文本识别概率的获取过程，包括：获取所述对话模型基于所述样本对话文本，输出的词表中每个候选词的概率；获取所述词表中属于任一回复文本的目标候选词，并将所述目标候选词的概率相乘得到所述任一回复文本的文本识别概率。 7.一种对话模型的训练装置，包括：获取模块，用于获取训练样本，所述训练样本包括样本对话文本、所述样本对话文本的多个回复文本，所述回复文本携带顺序标签和正负样本标签，所述顺序标签由对所述多个权　利　要　求　书 1/3 页 2 CN 114416943 A 2回复文本与所述样本对话文本的相关性进行排序确定；训练模块，用于基于所述训练样本对对话模型进行训练，以获取所述多个回复文本各自的文本识别概率；确定模块，用于根据所述文本识别概率、所述顺序标签和所述正负样本标签，确定所述对话模型的文本生成损失和文本排序损失；调整模块，用于基于所述文本生成损失和文本排序损失，对所述对话模型进行调整，以生成目标对话模型。 8.根据权利要求7 所述的装置，其中，所述确定模块，还用于：根据所述正负样本标签和所述顺序标签，确定所述样本对话文本的真实回复文本；获取所述真实回复文本的文本识别概率，确定所述文本生成损失。 9.根据权利要求8所述的装置，其中，所述确定模块，还用于：选取所述正负样本标签标识为正样本的回复文本作为候选回复文本；基于所述候选回复文本的顺序标签，对所述候选回复文本进行排序，将排在首位的候选回复文本，确定为所述真实回复文本。 10.根据权利要求7 所述的装置，其中，所述确定模块，还用于：对所述多个回复文本进行两两组合，生成多个文本组；基于所述文本组中两个回复文本各自的所述顺序标签和所述文本识别概率，确定所述文本组的概率差值；基于所述多个文本组各自的概率差值，确定所述文本排序损失。 11.根据权利要求7 所述的装置，其中，所述确定模块，还用于：对所述多个回复文本的识别概率按照从高到底的顺序进行排序；针对任一回复文本，获取位于所述任一回复文本的文本识别概率后面的后序回复文本的文本识别概率；基于所述任一回复文本的文本识别概率和每个所述后序回复文本的文本识别概率，确定识别概率之和，并将所述任一回复文本的文本识别概率与所述识别概率之和做比值，确定所述任一回复文本的概率比；基于每个所述回复文本的概率比，确定所述文本排序损失。 12.根据权利要求7 ‑11任一项所述的装置，其中，所述训练模块，还用于：获取所述对话模型基于所述样本对话文本，输出的词表中每个候选词的概率；获取所述词表中属于任一回复文本的目标候选词，并将所述目标候选词的概率相乘得到所述任一回复文本的文本识别概率。 13.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1 ‑6中任一项所述的对话模型的训练方法。 14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1 ‑6中任一项所述的对话模型的训练方法。权　利　要　求　书 2/3 页 3 CN 114416943 A 3

专利 对话模型的训练方法、装置、电子设备及存储介质

专利对话模型的训练方法、装置、电子设备及存储介质