专利 基于强化学习策略的人机交互训练方法及装置

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111521730.2 (22)申请日 2021.12.13 (71)申请人贝壳找房网（北京）信息技术有限公司地址 101500 北京市密云区经济开发区兴盛南路8号开发区办公楼501室-1834 (经济开发区集中办公区) (72)发明人王文彬　冯伟　 (74)专利代理机构北京路浩知识产权代理有限公司 11002 代理人谢志超 (51)Int.Cl. G06F 16/9032(2019.01) G06F 16/906(2019.01) G06N 20/00(2019.01) (54)发明名称基于强化学习策略的人机交互训练方法及装置 (57)摘要本申请提供一种基于强化学习策略的人机交互训练方法及装置，该方法包括：获取以目标样本集为训练样本训练得到的第一模型；所述目标样本集包括多个交互过程的交互内容；构建第二模型，使用所述第二模型与所述第一模型模拟即时通信交互过程；在所述第二模型与所述第一模型的交互过程中，所述第二模型输出回复内容，基于所述第二模型输出的回复内容对所述交互过程的评价指标的影响程度，调整所述第二模型的参数；将参数优化后的第二模型确定为目标模型；其中，所述评价指标用于指示所述交互过程能够实现预设目标的概率。权利要求书2页说明书13页附图3页 CN 114417086 A 2022.04.29 CN 114417086 A 1.一种基于强化学习策略的人机交互训练方法，其特征在于，包括：获取以目标样本集为训练样本训练得到的第一模型；所述目标样本集包括多个交互过程的交互内容；构建第二模型，使用所述第二模型与所述第一模型模拟即时通信交互过程；在所述第二模型与所述第一模型的交互过程中，所述第二模型输出回复内容，基于所述第二模型输出的回复内容对所述交互过程的评价指标的影响程度，调整所述第二模型的参数；将参数优化后的第二模型确定为目标模型；其中，所述评价指标用于指示所述交互过程能够实现预设目标的概率。 2.根据权利要求1所述的方法，其特征在于，所述获取以目标样本集为训练样本训练得到的第一模型，包括：使用所述目标样本集作为训练样本训练第一GPT模型，并得到所述第一模型；其中，所述第一GPT模型的训练样本中的每个样本均包括类别信息；所述类别信息用于对样本的交互内容进行分类。 3.根据权利要求1所述的方法，其特征在于，所述构建第二模型，使用所述第二模型与所述第一模型模拟即时通信交互过程，包括：构建所述第二模型，并通过初始交互内容引导所述第二模型与所述第一模型基于所述初始交互内容开始进行交互；将所述第二模型输出的回复内容作为所述第一模型的输入，并将所述第一模型输出的内容作为所述第二模型的输入，实现所述第二模型与所述第一模型的模拟即时通信交互。 4.根据权利要求3所述的方法，其特征在于，所述第二模型为排序模型；所述在所述第二模型与所述第一模型的交互过程中，所述第二模型输出回复内容，基于所述第二模型输出的回复内容对所述交互过程的评价指标的影响程度，调整所述第二模型的参数，包括：在所述排序模型与所述第一模型的模拟即时通信交互过程中，所述排序模型基于所述第一模型输出的第一内容，从候选回复集中筛选出与所述第一内容的上下文关联度最高的第一回复内容；从检索库中筛选出与当前交互过程对应的第一交互内容的相似度满足预设相似度的第二交互内容；所述第一交互内容包括所述第一回复内容；对第三交互内容中的每个交互内容进行特征提取，并将得到的每个交互内容的特征向量进行拼接，得到所述第三交互内容的特征值；所述第三交互内容包括：所述第一交互内容和所述第二交互内容；将所述特征值确定为第一回报函数的第一回报函数值，并基于所述第一回报函数值指示的所述排序模型输出的内容对所述评价指标的影响程度，调整所述排序模型的参数；其中，所述第一回报函数为基于所述排序模型构建的强化学习策略使用的回报函数。 5.根据权利要求3所述的方法，其特征在于，所述构建第二模型，包括：使用所述目标样本集作为训练样本对第二GPT模型进行预训练，并得到所述第二模型；其中，所述第二GPT模型的训练样本中的每个样本均包括第一对象信息以及场景信息；所述第一对象信息用于指示样本的交互内容所对应的第一对象；所述场景信息用于指示所权　利　要　求　书 1/2 页 2 CN 114417086 A 2述样本的交互内容所属的应用场景。 6.根据权利要求5所述的方法，其特征在于，所述在所述第二模型与所述第一模型的交互过程中，所述第二模型输出回复内容，基于所述第二模型输出的回复内容对所述交互过程的评价指标的影响程度，调整所述第二模型的参数，包括：在所述第二GPT模型与所述第一模型的模拟即时通信交互过程中，将所述第一模型输出的内容作为所述第二GPT模型的输入，并得到所述第二GPT模型生成的第二回复内容；其中，所述第二回复内容包括第二对象信息；所述第二对象信息用于指示所述第二回复内容符合所述第二对象的语言特征。 7.根据权利要求6所述的方法，其特征在于，所述在所述第二模型与所述第一模型的交互过程中，所述第二模型输出回复内容，基于所述第二模型输出的回复内容对所述交互过程的评价指标的影响程度，调整所述第二模型的参数，包括：根据第二回报函数计算所述第二模型输出的内容对所述评价指标的影响程度，并基于所述影响程度调整所述第二模型的参数；其中，所述第二回报函数为基于所述第二GPT模型构建的强化学习策略使用的回报函数。 8.一种基于强化学习策略的人机交互训练装置，其特征在于，所述装置包括：获取模块，用于获取以目标样本集为训练样本训练得到的第一模型；所述目标样本集包括多个交互过程的交互内容；构建模块，用于构建第二模型，使用所述第二模型与所述第一模型模拟即时通信交互过程；调整模块，用于在所述第二模型与所述第一模型的交互过程中，所述第二模型输出回复内容，基于所述第二模型输出的回复内容对所述交互过程的评价指标的影响程度，调整所述第二模型的参数；确定模块，用于将参数优化后的第二模型确定为目标模型；其中，所述评价指标用于指示所述交互过程能够实现预设目标的概率。 9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述基于强化学习策略的人机交互训练方法的步骤。 10.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至7中任一项所述基于强化学习策略的人机交互训练方法的步骤。权　利　要　求　书 2/2 页 3 CN 114417086 A 3

专利 基于强化学习策略的人机交互训练方法及装置

专利基于强化学习策略的人机交互训练方法及装置