说明:收录全网最新的团体标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202111185156.8 (22)申请日 2021.10.12 (65)同一申请的已公布的文献号 申请公布号 CN 113626721 A (43)申请公布日 2021.11.09 (73)专利权人 中国科学院自动化研究所 地址 100190 北京市海淀区中关村东路95 号 (72)发明人 白栋栋 洪志理 (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 代理人 吴刚 (51)Int.Cl. G06F 16/9535(2019.01) G06N 20/00(2019.01)审查员 董刚 (54)发明名称 基于遗憾探索的推荐方法、 装置、 电子设备 与存储介质 (57)摘要 本发明提供一种基于遗憾探索的推荐 方法、 装置、 电子设备与存储介质, 所述方法包括: 基于 目标用户的用户特征和各候选对象的对象特征, 确定各候选对象的状态; 将各候选对象的状态输 入至评分模 型, 得到评分模型输出的各候选对象 的评分; 基于各候选对象的评分, 确定向目标用 户推荐的对象; 评分模型是基于样 本对象的样本 状态进行强化学习得到的; 在强化学习过程中, 评分模型基于遗憾值集合, 以及当前样本状态进 行评分探索, 遗憾值集合存储有历史状态及其对 应的遗憾 值, 遗憾值基于历史状态下各候选评分 的优势确定, 历史状态是在当前样 本状态之前的 样本状态, 从而提高了探索的效率, 实现了对不 同用户进行个性化的精确推荐, 提高了用户体 验。 权利要求书2页 说明书12页 附图4页 CN 113626721 B 2022.01.25 CN 113626721 B 1.一种基于 遗憾探索的推荐方法, 其特 征在于, 包括: 基于目标用户的用户特 征和各候选对象的对象特 征, 确定各候选对象的状态; 将所述各候选对象的状态输入至评分模型, 得到所述评分模型输出的所述各候选对象 的评分; 基于所述各候选对象的评分, 确定向所述目标用户推荐的对象; 所述评分模型是基于样本对象的样本状态进行强化学习得到的; 在强化学习过程中, 所述评分模型基于遗憾值集合, 以及当前样本状态进行评分探索, 所述遗憾值集合存储有 历史状态及其对应的遗憾值, 所述遗憾值基于所述历史状态下各候选评分的优势确定, 所 述历史状态是在所述当前样本状态之前的样本状态, 所述候选评分为评分空间中可供选择 的评分。 2.根据权利要求1所述的基于遗憾探索的推荐方法, 其特征在于, 所述评分模型基于遗 憾值集合, 以及当前样本状态进行评分探索, 包括: 确定当前产生的随机数; 若所述随机数大于等于预设的探索概率, 则所述评分模型基于所述当前样本状态进行 评分利用; 否则, 则所述评分模型基于 遗憾值集合, 以及当前样本状态进行评分探索。 3.根据权利要求1所述的基于遗憾探索的推荐方法, 其特征在于, 所述遗憾值是基于如 下公式确定的: 其中, 为所述历史状态下第 个候选评分的遗憾值, 为所述历史状态的价 值, 为所述历史状态下第 个候选评分的优势, 为所述历史状态, 为所述第 个候 选评分。 4.根据权利要求1至3中任一项所述的基于遗憾探索的推荐方法, 其特征在于, 所述基 于遗憾值集合, 以及当前样本状态进行评分探索, 包括: 若所述遗憾值集合中包括所述当前样本状态, 则从所述遗憾值集合中获取所述当前样 本状态对应的各遗憾值, 并将所述各遗憾值中最大值对应的候选 评分作为当前评分; 否则, 则在所述遗憾值集合中将所述当前样本状态下各候选评分的遗憾值设置为初始 值, 并将从所述各候选 评分中等 概率选择的候选 评分作为当前评分。 5.根据权利要求1至3中任一项所述的基于遗憾探索的推荐方法, 其特征在于, 所述评 分模型基于 遗憾值集合, 以及当前样本状态进行评分探索, 之后还 包括: 若所述遗憾值集合中包括所述当前样本状态, 则所述评分模型基于所述当前样本状态 下各候选评分的优势确定各候选评分的当前遗憾值, 并基于所述各候选评分的当前遗憾 值, 更新所述遗憾值 集合中所述当前样本状态对应的各遗憾值。 6.根据权利要求2所述的基于遗憾探索的推荐方法, 其特征在于, 所述基于所述当前样 本状态进行评分利用, 包括: 基于所述当前样本状态的价值以及所述当前样本状态下各候选评分的优势, 确定所述权 利 要 求 书 1/2 页 2 CN 113626721 B 2当前样本状态下 各候选评分的价 值; 将所述各候选 评分的价 值中最大值对应的候选 评分作为当前评分。 7.一种基于 遗憾探索的推荐装置, 其特 征在于, 包括: 确定模块, 用于基于目标用户的用户特征和各候选对象的对象特征, 确定各候选对象 的状态; 输入模块, 用于将所述各候选对象的状态输入至评分模型, 得到所述评分模型输出的 所述各候选对象的评分; 推荐模块, 用于基于所述各候选对象的评分, 确定向所述目标用户推荐的对象; 所述评分模型是基于样本对象的样本状态进行强化学习得到的; 在强化学习过程中, 所述评分模型基于遗憾值集合, 以及当前样本状态进行评分探索, 所述遗憾值集合存储有 历史状态及其对应的遗憾值, 所述遗憾值基于所述历史状态下各候选评分的优势确定, 所 述历史状态是在所述当前样本状态之前的样本状态, 所述候选评分为评分空间中可供选择 的评分。 8.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运 行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至6任一项所 述基于遗憾探索的推荐方法的步骤。 9.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机 程序被处 理器执行时实现如权利要求1至 6任一项所述基于 遗憾探索的推荐方法的步骤。权 利 要 求 书 2/2 页 3 CN 113626721 B 3
专利 基于遗憾探索的推荐方法、装置、电子设备与存储介质
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助1.5元下载(无需注册)
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助1.5元下载
本文档由 人生无常 于
2024-03-19 02:02:07
上传分享
举报
下载
原文档
(659.4 KB)
分享
友情链接
T-SCTIA 001—2021 团体标准制定程序规范.pdf
DB32-T 3702-2019 江苏省日照分析技术规程 江苏省.pdf
T-CACM 1065—2018 中药DNA分子鉴定试剂盒 定性 评价技术要求.pdf
GB-T 31974-2015 钝化颗粒镁.pdf
GB-T 36558-2018 电力系统电化学储能系统通用技术条件.pdf
GM T 0130-2023 基于SM2算法的无证书及隐式证书公钥机制.pdf
GB-T 25647-2010 电子政务术语.pdf
OWASP AI大模型应用网络安全治理检查清单 LLM_AI_Security_and_Governance_Checklist 2024.pdf
GB/T 6165-2021 高效空气过滤器性能试验方法 效率和阻力.pdf
GB-T 41479-2022 信息安全技术 网络数据处理安全要求.pdf
TC260 网络安全标准实践指南 Windows 7操作系统安全加固指引.pdf
GB-T 21369-2008 火力发电企业能源计量器具配备和管理要求.pdf
GB-T 3324-2017 木家具通用技术条件.pdf
T-ZQTX 002—2023 章丘铁锅.pdf
GB-T 7713.3-2014 科技报告编写规则.pdf
DB51-T 2917-2022 县域智慧旅游城市建设指南 四川省.pdf
TB-T 3369-2018 铁路数字移动通信系统(GSM-R)光纤直放站网络管理系统试验方法.pdf
GB-T 42754-2023 干式化学分析仪性能评价通则.pdf
GB-T 38664.4-2022 信息技术 大数据 政务数据开放共享 第4部分:共享评价.pdf
GB-T 23176-2008 篮球架.pdf
1
/
3
19
评价文档
赞助1.5元 点击下载(659.4 KB)
回到顶部
×
微信扫码支付
1.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。