专利训练文本生成方法、模型训练方法、装置及电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210535272.6 (22)申请日 2022.05.17 (71)申请人网易（杭州）网络有限公司地址 310052 浙江省杭州市滨江区长河街道网商路59 9号4幢7层 (72)发明人王丽　宋有伟　张林箭　张聪　范长杰　胡志鹏　 (74)专利代理机构北京清源汇知识产权代理事务所(特殊普通合伙) 11644 专利代理师冯德魁 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/332(2019.01) G06F 40/30(2020.01) G06F 40/216(2020.01)G06K 9/62(2022.01) (54)发明名称训练文本生成方法、模型训练方法、装置及电子设备 (57)摘要本申请公开了一种训练文本生成方法、模型训练方法、文本识别方法、装置电子设备及计算机可读存储介质，其中，训练文本用于对待训练模型进行训练，以得到文本识别模型，训练文本生成方法包括：获取引导文本，所述引导文本与目标文本的语义属性相一致，所述目标文本为所述文本识别模型识别出的正例文本；将所述引导文本输入基于引导的文本生成模型中，得到与所述引导文本的语义属性相一致的输出文本；根据所述输出文本确定训练文本。本申请通过基于引导的文本生成模型自动生成输出文本，从而确定出训练文本，可以更加快速、高效地得到训练文本。权利要求书3页说明书18页附图3页 CN 115129866 A 2022.09.30 CN 115129866 A 1.一种训练文本生成方法，其特征在于，所述训练文本用于对待训练模型进行训练，以得到文本识别模型，所述方法包括：获取引导文本，所述引导文本与目标文本的语义属性相一致，所述目标文本为所述文本识别模型识别出的正例文本；将所述引导文本输入基于引导的文本生成模型中，得到与所述引导文本的语义属性相一致的输出文本；根据所述输出文本确定训练文本。 2.根据权利要求1所述的方法，其特征在于，在所述将所述引导文本输入基于引导的文本生成模型中之前，所述方法还包括：获取提问文本；所述将所述引导文本输入基于引导的文本生成模型中，得到与所述引导文本语义属性相一致的输出文本，包括：将所述提问文本和所述引导文本输入基于引导的对话生成模型中，得到用于回复所述提问文本、且与所述引导文本语义属性相一致的输出文本。 3.根据权利要求2所述的方法，其特征在于，所述输出文本包括多条；所述根据所述输出文本确定训练文本，包括：从多条所述输出文本中确定训练文本。 4.根据权利要求3所述的方法，其特征在于，所述从多条所述输出文本中确定训练文本，包括：通过第一策略确定训练文本，所述第一策略包括：从多条所述输出文本中选择包含至少一个预设关键词的文本作为训练文本，所述预设关键词与所述目标文本的语义属性相一致；或者，通过第二策略确定训练文本，所述第二策略包括：从多条所述输出文本中选择第一条文本或随机选择一条文本作为训练文本。 5.根据权利要求4所述的方法，其特征在于，选择所述第一策略确定所述训练文本的概率为第一预设概率，选择所述第二策略确定所述训练文本的概率为第二预设概率，所述第一预设概率大于所述第二预设概率，且所述第一预设概率与所述第二预设概率之和为1。 6.根据权利要求4所述的方法，其特征在于，所述引导文本包括至少一个引导词，每一所述引导词与所述目标文本的语义属性相一致；所述预设关键词包括：各所述引导词。 7.根据权利要求6所述的方法，其特征在于，所述预设关键词还包括：各第一目标词，所述第一目标词为与所述目标文本语义属性相一致、且与各所述引导词均不同的词。 8.根据权利要求4所述的方法，其特征在于，所述第一策略还包括：当多条所述输出文本均未包含任一所述预设关键词时，选择多条所述输出文本中的第一条以确定训练文本。 9.根据权利要求1至8任一项所述的方法，其特征在于，所述正例文本的语义属性为语义敏感的文本，所述目标文本的语义属性为语义敏感的文本，所述文本识别模型用于对对话生成模型所生成的文本进行识别。 10.一种文本识别模型的训练方法，其特征在于，包括：获取训练样本，所述训练样本包括正例样本和负例样本，所述正例样本对应的文本包权　利　要　求　书 1/3 页 2 CN 115129866 A 2括：通过权利要求1至9中任一项所述的训练文本生成方法所生成的训练文本；使用所述训练样本对待训练模型进行训练，得到文本识别模型。 11.根据权利要求10所述的训练方法，其特征在于，所述训练方法还包括：获取第一文本，所述第一文本为所述文本识别模型识别错误的文本，所述识别错误的文本的实际语义属性与所述文本识别模型对所述识别错误的文本所识别出的语义属性不同；对所述第一文本进行标注，得到第一样本；使用所述第一样本对所述文本识别模型进行优化训练。 12.根据权利要求11所述的训练方法，其特征在于，在所述使用所述第一样本对所述文本识别模型进行优化训练之前，所述训练方法还包括：获取第二文本，所述第二文本中包含第二目标词，且所述第二文本与所述第一文本的语义属性相反，所述第二目标词为所述第一文本中包含的、与所述目标文本所表达的语义属性相一致的词；对所述第二文本进行标注，得到第二样本，所述第二样本与所述第一样本的标注信息相反；所述使用所述第一样本对所述文本识别模型进行优化训练，包括：使用所述第一样本和所述第二样本对所述文本识别模型进行优化训练。 13.根据权利要求10至12任一项所述的训练方法，其特征在于，所述训练样本包括回复样本以及问答拼接样本；所述回复样本中正例样本对应的文本包括：通过权利要求2至8中任一项所述训练文本生成方法生成的文本；所述问答拼接样本对应的文本为拼接文本，所述拼接文本包括：将提问文本与对应于该提问文本的回复文本进行拼接后形成的文本。 14.一种文本识别方法，其特征在于，包括：获取待识别文本；将所述待识别文本输入文本识别模型中，得到对所述待识别文本的识别结果，其中，所述文本识别模型是通过权利要求10 至13中任一项所述的训练方法进行训练得到的。 15.根据权利要求14所述的文本识别方法，其特征在于，所述待识别文本为对话生成模型所生成的文本；或者，所述待识别文本为将用户的提问文本以及对话生成模型所生成的文本进行拼接后形成的文本，其中，所述文本识别模型是通过权利要求13所述的训练方法进行训练得到的。 16.一种训练文本生成装置，其特征在于，所述训练文本用于对待训练模型进行训练，以得到文本识别模型，所述装置包括：信息获取单元，用于获取引导文本，所述引导文本与目标文本的语义属性相一致，所述目标文本为所述文本识别模型识别出的正例文本；文本生成单元，用于将所述引导文本输入基于引导的文本生成模型中，得到与所述引导文本的语义属性相一致的输出文本；文本确定单元，用于根据所述输出文本确定训练文本。权　利　要　求　书 2/3 页 3 CN 115129866 A 3

专利 训练文本生成方法、模型训练方法、装置及电子设备

专利训练文本生成方法、模型训练方法、装置及电子设备