专利信息处理与模型训练方法、装置、设备、介质及程序产品

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210958184.7 (22)申请日 2022.08.10 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦二层 (72)发明人陆华　鲍思琪　何煌　王凡　吴华　黄世维　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 专利代理师孟洋 (51)Int.Cl. G06F 16/332(2019.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称信息处理与模型训练方法、装置、设备、介质及程序产品 (57)摘要本公开提供了一种信息处理与模型训练方法、装置、设备、介质及程序产品。本公开涉及计算机技术技术领域，尤其涉及一种人工智能和语音技术领域。在本公开的一些实施例中，根据修正回复样本语句、第二候选回复样本语句和召回回复样本语句进行训练得到对话模型初始对话样本语句输入初始对话模型中得到多个候选回复样本语句，第二候选回复样本语句为多个候选回复样本语句中的任意一个语句，修正回复样本语句为对候选回复样本中的第一回复样本语句进行修正得到的对话质量较高的语句；召回回复样本语句为训练样本语句中除初始对话样本语句和多个候选回复样本语句之外的其他样本语句；得到对话精度较高的对话模型和对话质量较高的目标回复语句。权利要求书3页说明书9页附图3页 CN 115292467 A 2022.11.04 CN 115292467 A 1.一种信息处理方法，包括：获取初始对话语句；将所述初始对话语句输入已经训练完成的对话模型中，得到目标回复语句；其中，所述对话模型为根据修正回复样本语句、第二候选回复样本语句和召回回复样本语句进行训练得到的模型；其中，初始对话样本语句输入初始对话模型中得到多个候选回复样本语句；所述第二候选回复样本语句为所述多个候选回复样本语句中的任意一个语句；所述修正回复样本语句为对所述候选回复样本中的第一回复样本语句进行修正得到的语句；所述召回回复样本语句为训练样本语句中除所述初始对话样本语句和所述多个候选回复样本语句之外的其他样本语句。 2.根据权利要求1所述的方法，其中，所述将所述初始对话语句输入已经训练完成的对话模型中，得到目标回复语句，包括：在所述对话模型内部，将所述初始对话语句输入所述对话模型的语句生成模型中，得到多个候选回复语句和每个所述候选回复语句的概率；将所述多个候选回复语句和每个所述候选回复语句的概率输入所述对话模型的语句确定模型中，得到目标回复语句。 3.根据权利要求2所述的方法，其中，所述将所述多个候选回复语句和每个所述候选回复语句的概率输入所述对话模型的语句确定模型中，得到目标回复语句，包括：将所述多个候选回复语句和每个所述候选回复语句的概率输入所述语句确定模型中，从所述多个候选回复语句中选择出概率最大的目标回复语句。 4.一种模型训练方法，包括：获取初始对话样本语句；将所述初始对话样本语句输入初始对话模型中，得到多个候选回复样本语句；对所述多个候选回复样本语句中的第一候选回复样本语句进行修正，得到修正回复样本语句；根据所述修正回复样本语句、所述多个候选回复样本语句中的第二候选回复样本语句和召回回复样本语句对所述初始对话模型进行训练，得到对话模型；其中，所述召回回复样本语句为训练样本语句中除所述初始对话样本语句和所述多个候选回复样本语句之外的其他样本语句。 5.根据权利要求4所述的方法，其中，所述根据所述修正回复样本语句、所述多个候选回复样本语句中的第二候选回复样本语句和召回回复样本语句对所述初始对话模型进行训练，得到对话模型，包括：将所述修正回复样本语句、所述第二候选回复样本语句和所述召回回复样本语句输入所述初始对话模型的语句生成模型中，得到真实回复语句、修正回复样本语句概率、第二候选回复样本语句概率和召回回复样本语句概率；根据所述真实回复语句、所述修正回复样本语句概率、所述第二候选回复样本语句概率和所述召回回复样本语句概率对所述初始对话模型中的所述初始语句生成模型和初始语句确定模型进行联合训练，得到所述对话模型。 6.根据权利要求5所述的方法，其中，所述根据所述真实回复语句、所述修正回复样本语句概率、所述第二候选回复样本语句概率和所述召回回复样本语句概率对所述初始对话权　利　要　求　书 1/3 页 2 CN 115292467 A 2模型中的所述初始语句生成模型和初始语句确定模型进行联合训练，得到所述对话模型，包括：根据所述真实回复语句和所述修正回复样本语句，确定损失函数；根据所述损失函数，以所述修正回复样本语句概率大于所述第二候选回复样本语句概率、所述修正回复样本语句概率大于所述召回回复样本语句概率、所述第二候选回复样本语句概率大于所述召回回复样本语句概率为训练目标，对所述初始语句生成模型和所述初始语句确定模型进行联合训练，得到所述对话模型。 7.一种信息处理装置，包括：获取模块，用于获取初始对话语句；输入模块，用于将所述初始对话语句输入已经训练完成的对话模型中，得到目标回复语句；其中，所述对话模型为根据修正回复样本语句、第二候选回复样本语句和召回回复样本语句进行训练得到的模型；其中，初始对话样本语句输入初始对话模型中得到多个候选回复样本语句；所述第二候选回复样本语句为所述多个候选回复样本语句中的任意一个语句；所述修正回复样本语句为对所述候选回复样本中的第一回复样本语句进行修正得到的语句；所述召回回复样本语句为训练样本语句中除所述初始对话样本语句和所述多个候选回复样本语句之外的其他样本语句。 8.根据权利要求7所述的装置，其中，所述输入模块在将所述初始对话语句输入已经训练完成的对话模型中，得到目标回复语句时，用于：在所述对话模型内部，将所述初始对话语句输入所述对话模型的语句生成模型中，得到多个候选回复语句和每个所述候选回复语句的概率；将所述多个候选回复语句和每个所述候选回复语句的概率输入所述对话模型的语句确定模型中，得到目标回复语句。 9.根据权利要求8所述的装置，其中，所述输入模块在将所述多个候选回复语句和每个所述候选回复语句的概率输入所述对话模型的语句确定模型中，得到目标回复语句时，用于：将所述多个候选回复语句和每个所述候选回复语句的概率输入所述语句确定模型中，从所述多个候选回复语句中选择出概率最大的目标回复语句。 10.一种模型训练装置，包括：语句获取模块，获取初始对话样本语句；语句输入模块，将所述初始对话样本语句输入初始对话模型中，得到多个候选回复样本语句；修正模块，对所述多个候选回复样本语句中的第一候选回复样本语句进行修正，得到修正回复样本语句；训练模块，根据所述修正回复样本语句、所述多个候选回复样本语句中的第二候选回复样本语句和召回回复样本语句对所述初始对话模型进行训练，得到对话模型；其中，所述召回回复样本语句为训练样本语句中除所述初始对话样本语句和所述多个候选回复样本语句之外的其他样本语句。 11.根据权利要求10所述的装置，其中，所述训练模块在根据所述修正回复样本语句、权　利　要　求　书 2/3 页 3 CN 115292467 A 3

专利 信息处理与模型训练方法、装置、设备、介质及程序产品

专利信息处理与模型训练方法、装置、设备、介质及程序产品