说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111521730.2 (22)申请日 2021.12.13 (71)申请人 贝壳找房网 (北京) 信息技 术有限公 司 地址 101500 北京市密云区经济开发区兴 盛南路8号开发区办公楼501室-1834 (经济开发区集中办公区) (72)发明人 王文彬 冯伟  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 代理人 谢志超 (51)Int.Cl. G06F 16/9032(2019.01) G06F 16/906(2019.01) G06N 20/00(2019.01) (54)发明名称 基于强化学习策略的人机交互训练方法及 装置 (57)摘要 本申请提供一种基于强化学习策略的人机 交互训练方法及装置, 该方法包括: 获取 以目标 样本集为训练样本训练得到的第一模 型; 所述目 标样本集包括多个交互过程的交互 内容; 构建第 二模型, 使用所述第二模型与所述第一模型模拟 即时通信交互过程; 在所述第二模 型与所述第一 模型的交互过程中, 所述第二模型输出回复内 容, 基于所述第二模型输出的回复内容对所述交 互过程的评价指标的影 响程度, 调整所述第二模 型的参数; 将参数优化后的第二模 型确定为目标 模型; 其中, 所述评价指标用于指示所述交互过 程能够实现预设目标的概 率。 权利要求书2页 说明书13页 附图3页 CN 114417086 A 2022.04.29 CN 114417086 A 1.一种基于强化学习策略的人机交 互训练方法, 其特 征在于, 包括: 获取以目标样本集为训练样本训练得到的第 一模型; 所述目标样本集包括多个交互过 程的交互内容; 构建第二模型, 使用所述第二模型与所述第一模型模拟即时通信交 互过程; 在所述第二模型与所述第一模型的交互过程中, 所述第二模型输出回复内容, 基于所 述第二模型输出的回复内容对所述交互过程的评价指标的影响程度, 调整 所述第二模型的 参数; 将参数优化后的第二模型确定为目标模型; 其中, 所述评价指标用于指示所述交 互过程能够实现预设目标的概 率。 2.根据权利要求1所述的方法, 其特征在于, 所述获取以目标样本集为训练样本训练得 到的第一模型, 包括: 使用所述目标样本集作为训练样本训练第一GPT模型, 并得到所述第一模型; 其中, 所述第一GPT模型的训练样本 中的每个样本均包括类别信息; 所述类别信息用于 对样本的交 互内容进行分类。 3.根据权利要求1所述的方法, 其特征在于, 所述构建第二模型, 使用所述第二模型与 所述第一模型模拟即时通信交 互过程, 包括: 构建所述第 二模型, 并通过初始交互内容引导所述第 二模型与 所述第一模型基于所述 初始交互内容开始进行交 互; 将所述第二模型输出的回复内容作为所述第 一模型的输入, 并将所述第 一模型输出的 内容作为所述第二模型的输入, 实现所述第二模型与所述第一模型的模拟即时通信交 互。 4.根据权利要求3所述的方法, 其特 征在于, 所述第二模型为 排序模型; 所述在所述第二模型与所述第一模型的交互过程中, 所述第二模型输出回复内容, 基 于所述第二模型输出的回复内容对所述交互过程的评价指标的影响程度, 调整所述第二模 型的参数, 包括: 在所述排序模型与 所述第一模型的模拟即时通信交互过程中, 所述排序模型基于所述 第一模型输出的第一内容, 从候选回复集中筛选出与所述第一内容的上下文关联度最高的 第一回复内容; 从检索库中筛选出与当前交互过程对应的第一交互内容的相似度满足预设相似度的 第二交互内容; 所述第一交 互内容包括所述第一回复内容; 对第三交互内容中的每个交互内容进行特征提取, 并将得到的每个交互内容的特征向 量进行拼接, 得到所述第三交互内容的特征值; 所述第三交互内容包括: 所述第一交互内容 和所述第二交 互内容; 将所述特征值确定为第 一回报函数的第 一回报函数值, 并基于所述第 一回报函数值指 示的所述 排序模型输出的内容对所述评价指标的影响程度, 调整所述 排序模型的参数; 其中, 所述第一回报函数为基于所述 排序模型构建的强化学习策略使用的回报函数。 5.根据权利要求3所述的方法, 其特 征在于, 所述构建第二模型, 包括: 使用所述目标样本集作为训练样本对第二GPT模型进行 预训练, 并得到所述第二模型; 其中, 所述第二GPT模型的训练样本 中的每个样本均包括第一对象信息以及场景信息; 所述第一对象信息用于指示样本的交互内容所对应的第一对象; 所述场景信息用于指示所权 利 要 求 书 1/2 页 2 CN 114417086 A 2述样本的交 互内容所属的应用场景。 6.根据权利要求5所述的方法, 其特征在于, 所述在所述第 二模型与 所述第一模型的交 互过程中, 所述第二模型输出回复内容, 基于所述第二模型输出 的回复内容对所述交互过 程的评价指标的影响程度, 调整所述第二模型的参数, 包括: 在所述第二GPT模型与所述第一模型的模拟即时通信交互过程中, 将所述第一模型输 出的内容作为所述第二GPT模型的输入, 并得到所述第二GPT模型生成的第二回复内容; 其中, 所述第二回复内容包括第二对象信息; 所述第二对象信息用于指示所述第二回 复内容符合所述第二对象的语言特 征。 7.根据权利要求6所述的方法, 其特征在于, 所述在所述第 二模型与 所述第一模型的交 互过程中, 所述第二模型输出回复内容, 基于所述第二模型输出 的回复内容对所述交互过 程的评价指标的影响程度, 调整所述第二模型的参数, 包括: 根据第二回报函数计算所述第 二模型输出的内容对所述评价指标的影响程度, 并基于 所述影响程度调整所述第二模型的参数; 其中, 所述第二回报函数为基于所述第二GPT模型构建的强化学习策略使用的回报函 数。 8.一种基于强化学习策略的人机交 互训练装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取以目标样本集为训练样本训练得到的第一模型; 所述目标样本集 包括多个交 互过程的交 互内容; 构建模块, 用于构建第二模型, 使用所述第二模型与所述第一模型模拟即时通信交互 过程; 调整模块, 用于在所述第二模型与所述第一模型的交互过程中, 所述第二模型输出回 复内容, 基于所述第二模型输出 的回复内容对所述交互过程的评价指标的影响程度, 调整 所述第二模型的参数; 确定模块, 用于将参数优化后的第 二模型确定为目标模型; 其中, 所述评价指标用于指 示所述交 互过程能够实现预设目标的概 率。 9.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运 行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至7任一项所 述基于强化学习策略的人机交 互训练方法的步骤。 10.一种计算机程序产品, 包括计算机程序/指令, 其特征在于, 该计算机程序/指令被 处理器执行时实现权利要求1至7中任一项所述基于强化学习 策略的人机交互训练方法的 步骤。权 利 要 求 书 2/2 页 3 CN 114417086 A 3

.PDF文档 专利 基于强化学习策略的人机交互训练方法及装置

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于强化学习策略的人机交互训练方法及装置 第 1 页 专利 基于强化学习策略的人机交互训练方法及装置 第 2 页 专利 基于强化学习策略的人机交互训练方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:21:36上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。