说明:收录全网最新的团体标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111521730.2 (22)申请日 2021.12.13 (71)申请人 贝壳找房网 (北京) 信息技 术有限公 司 地址 101500 北京市密云区经济开发区兴 盛南路8号开发区办公楼501室-1834 (经济开发区集中办公区) (72)发明人 王文彬 冯伟 (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 代理人 谢志超 (51)Int.Cl. G06F 16/9032(2019.01) G06F 16/906(2019.01) G06N 20/00(2019.01) (54)发明名称 基于强化学习策略的人机交互训练方法及 装置 (57)摘要 本申请提供一种基于强化学习策略的人机 交互训练方法及装置, 该方法包括: 获取 以目标 样本集为训练样本训练得到的第一模 型; 所述目 标样本集包括多个交互过程的交互 内容; 构建第 二模型, 使用所述第二模型与所述第一模型模拟 即时通信交互过程; 在所述第二模 型与所述第一 模型的交互过程中, 所述第二模型输出回复内 容, 基于所述第二模型输出的回复内容对所述交 互过程的评价指标的影 响程度, 调整所述第二模 型的参数; 将参数优化后的第二模 型确定为目标 模型; 其中, 所述评价指标用于指示所述交互过 程能够实现预设目标的概 率。 权利要求书2页 说明书13页 附图3页 CN 114417086 A 2022.04.29 CN 114417086 A 1.一种基于强化学习策略的人机交 互训练方法, 其特 征在于, 包括: 获取以目标样本集为训练样本训练得到的第 一模型; 所述目标样本集包括多个交互过 程的交互内容; 构建第二模型, 使用所述第二模型与所述第一模型模拟即时通信交 互过程; 在所述第二模型与所述第一模型的交互过程中, 所述第二模型输出回复内容, 基于所 述第二模型输出的回复内容对所述交互过程的评价指标的影响程度, 调整 所述第二模型的 参数; 将参数优化后的第二模型确定为目标模型; 其中, 所述评价指标用于指示所述交 互过程能够实现预设目标的概 率。 2.根据权利要求1所述的方法, 其特征在于, 所述获取以目标样本集为训练样本训练得 到的第一模型, 包括: 使用所述目标样本集作为训练样本训练第一GPT模型, 并得到所述第一模型; 其中, 所述第一GPT模型的训练样本 中的每个样本均包括类别信息; 所述类别信息用于 对样本的交 互内容进行分类。 3.根据权利要求1所述的方法, 其特征在于, 所述构建第二模型, 使用所述第二模型与 所述第一模型模拟即时通信交 互过程, 包括: 构建所述第 二模型, 并通过初始交互内容引导所述第 二模型与 所述第一模型基于所述 初始交互内容开始进行交 互; 将所述第二模型输出的回复内容作为所述第 一模型的输入, 并将所述第 一模型输出的 内容作为所述第二模型的输入, 实现所述第二模型与所述第一模型的模拟即时通信交 互。 4.根据权利要求3所述的方法, 其特 征在于, 所述第二模型为 排序模型; 所述在所述第二模型与所述第一模型的交互过程中, 所述第二模型输出回复内容, 基 于所述第二模型输出的回复内容对所述交互过程的评价指标的影响程度, 调整所述第二模 型的参数, 包括: 在所述排序模型与 所述第一模型的模拟即时通信交互过程中, 所述排序模型基于所述 第一模型输出的第一内容, 从候选回复集中筛选出与所述第一内容的上下文关联度最高的 第一回复内容; 从检索库中筛选出与当前交互过程对应的第一交互内容的相似度满足预设相似度的 第二交互内容; 所述第一交 互内容包括所述第一回复内容; 对第三交互内容中的每个交互内容进行特征提取, 并将得到的每个交互内容的特征向 量进行拼接, 得到所述第三交互内容的特征值; 所述第三交互内容包括: 所述第一交互内容 和所述第二交 互内容; 将所述特征值确定为第 一回报函数的第 一回报函数值, 并基于所述第 一回报函数值指 示的所述 排序模型输出的内容对所述评价指标的影响程度, 调整所述 排序模型的参数; 其中, 所述第一回报函数为基于所述 排序模型构建的强化学习策略使用的回报函数。 5.根据权利要求3所述的方法, 其特 征在于, 所述构建第二模型, 包括: 使用所述目标样本集作为训练样本对第二GPT模型进行 预训练, 并得到所述第二模型; 其中, 所述第二GPT模型的训练样本 中的每个样本均包括第一对象信息以及场景信息; 所述第一对象信息用于指示样本的交互内容所对应的第一对象; 所述场景信息用于指示所权 利 要 求 书 1/2 页 2 CN 114417086 A 2述样本的交 互内容所属的应用场景。 6.根据权利要求5所述的方法, 其特征在于, 所述在所述第 二模型与 所述第一模型的交 互过程中, 所述第二模型输出回复内容, 基于所述第二模型输出 的回复内容对所述交互过 程的评价指标的影响程度, 调整所述第二模型的参数, 包括: 在所述第二GPT模型与所述第一模型的模拟即时通信交互过程中, 将所述第一模型输 出的内容作为所述第二GPT模型的输入, 并得到所述第二GPT模型生成的第二回复内容; 其中, 所述第二回复内容包括第二对象信息; 所述第二对象信息用于指示所述第二回 复内容符合所述第二对象的语言特 征。 7.根据权利要求6所述的方法, 其特征在于, 所述在所述第 二模型与 所述第一模型的交 互过程中, 所述第二模型输出回复内容, 基于所述第二模型输出 的回复内容对所述交互过 程的评价指标的影响程度, 调整所述第二模型的参数, 包括: 根据第二回报函数计算所述第 二模型输出的内容对所述评价指标的影响程度, 并基于 所述影响程度调整所述第二模型的参数; 其中, 所述第二回报函数为基于所述第二GPT模型构建的强化学习策略使用的回报函 数。 8.一种基于强化学习策略的人机交 互训练装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取以目标样本集为训练样本训练得到的第一模型; 所述目标样本集 包括多个交 互过程的交 互内容; 构建模块, 用于构建第二模型, 使用所述第二模型与所述第一模型模拟即时通信交互 过程; 调整模块, 用于在所述第二模型与所述第一模型的交互过程中, 所述第二模型输出回 复内容, 基于所述第二模型输出 的回复内容对所述交互过程的评价指标的影响程度, 调整 所述第二模型的参数; 确定模块, 用于将参数优化后的第 二模型确定为目标模型; 其中, 所述评价指标用于指 示所述交 互过程能够实现预设目标的概 率。 9.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运 行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至7任一项所 述基于强化学习策略的人机交 互训练方法的步骤。 10.一种计算机程序产品, 包括计算机程序/指令, 其特征在于, 该计算机程序/指令被 处理器执行时实现权利要求1至7中任一项所述基于强化学习 策略的人机交互训练方法的 步骤。权 利 要 求 书 2/2 页 3 CN 114417086 A 3
专利 基于强化学习策略的人机交互训练方法及装置
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助1.5元下载(无需注册)
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助1.5元下载
本文档由 人生无常 于
2024-03-19 01:21:36
上传分享
举报
下载
原文档
(603.1 KB)
分享
友情链接
GB-T 22900-2022 科学技术研究项目评价通则.pdf
GB-T 34095-2017 信息安全技术 用于电子支付的基于近距离无线通信的移动终端安全技术要求.pdf
DB31-T 945.4-2020 节能服务业服务规范 第4部分:公共建筑能源审计 上海市.pdf
DB11-T 2046.3-2022 智慧停车系统技术要求 第3部分:停车场 (库)管理模块 北京市.pdf
GB-T 39853.1-2021 供电系统中的电能质量测量 第1部分:电能质量监测设备(PQI).pdf
亿格云 陈吴栋 零信任SASE 助力数字化企业建立多云安全访问体系.pdf
GB-T 32808-2016 阀门 型号编制方法.pdf
GB-T 36639-2018 信息安全技术 可信计算规范 服务器可信支撑平台.pdf
Cisco防火墙安全配置基线.doc
DB11-T 1412-2017 区域规划节能评估技术规范 北京市.pdf
GB-T 3978-2008 标准照明体和几何条件.pdf
GB-T 36092-2018 信息技术 备份存储 备份技术应用要求.pdf
专利 资产暴露面信息获取方法、装置、设备以及存储介质.PDF
T-WSJD 21—2022 内镜储存干燥柜卫生要求.pdf
DB3402-T 25-2022 12355青少年服务台服务规范 芜湖市.pdf
信通院 数据治理研究报告-2020年——培育数据要素市场路线图.pdf
T-GDATCM 0009—2023 厚朴 厚朴 煮散饮片.pdf
T-CSAE 80—2018 能量回馈式汽车液压防抱死制动系统 耐久性能要求及台架试验方法.pdf
DB11-T 1484-2017 固定污染源废气挥发性有机物监测技术规范 北京市.pdf
GB-T 42815-2023 债券价格指标产品描述规范.pdf
1
/
3
19
评价文档
赞助1.5元 点击下载(603.1 KB)
回到顶部
×
微信扫码支付
1.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。