说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111614735.X (22)申请日 2021.12.28 (71)申请人 中国科学院自动化研究所 地址 100190 北京市海淀区中关村东路95 号 (72)发明人 黄凯奇 尹奇跃 张俊格 徐沛  (74)专利代理 机构 北京华夏泰和知识产权代理 有限公司 1 1662 代理人 李永叶 (51)Int.Cl. G06N 20/20(2019.01) G06K 9/62(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) (54)发明名称 基于深度强化学习网络构建对区域敏感的 模型的方法 (57)摘要 本公开涉及一种基于深度强化学习网络构 建对区域敏感的模型的方法, 该方法包括: 获取 初始化状态下的智能体对图像仿真环境进行搜 索的搜索数据; 根据搜索数据, 生成注意力图, 并 对注意力图进行离散化处理; 将 搜索数据中的位 置状态信息和离散化处理后的注意力图输入至 初始化的虚拟奖励模型中, 输出得到虚拟奖励信 息; 根据虚拟奖励信息来更新搜索数据中的奖励 信息, 并对应更新智能体的搜索策略模 型和更新 虚拟奖励模 型; 根据更新后的搜索数据和虚拟奖 励模型, 对更新后的搜索策略模型继续进行训 练, 直至达到训练结束条件, 训练完成的搜索策 略模型为能够区分相似图像的图像搜索模型。 该 方法能够对相似图像针对性地采取不同的搜索 策略。 权利要求书3页 说明书14页 附图7页 CN 114004370 A 2022.02.01 CN 114004370 A 1.一种基于深度强化学习网络构建对区域敏感的模型的方法, 其特 征在于, 包括: 获取初始化状态下的智能体对图像仿真环境进行搜索的搜索数据; 根据所述搜索数据, 生成注意力图, 并对所述注意力图进行离 散化处理; 将所述搜索数据中的位置状态信息和离散化处理后的注意力图输入至初始化的虚拟 奖励模型中, 输出 得到虚拟奖励信息; 根据所述虚拟奖励信 息来更新所述搜索数据中的奖励信 息, 并对应更新所述智能体的 搜索策略模型和更新所述虚拟奖励模型; 以及 根据更新后的搜索数据和虚拟奖励模型, 对更新后的搜索策略模型继续进行训练, 直 至达到训练结束条件, 训练完成的搜索策略模型为能够区分相似图像的图像搜索模型。 2.根据权利要求1所述的方法, 其特征在于, 所述虚拟奖励模型用于激励所述智能体对 历史访问次数相对较少的图像位置状态进行访问; 所述虚拟奖励模型包括: 参数随机初始化且参数固定的目标网络和参数可训练 的预测 网络; 其中, 所述 目标网络和所述预测网络的输入状态与所述搜索数据中的位置状态信息 以及离散化处理后的注意力图均相关, 所述离散化处理后的注意力图使得图像相似, 但注 意力图具有区别的两个 状态具有区分性。 3.根据权利要求1所述的方法, 其特征在于, 所述搜索数据为针对所述智能体的依时序 分布的数据组序列, 所述数据组序列中每一时刻的数据组包含: 当前状态, 针对当前状态的 当前搜索动作, 针对当前状态实施当前搜索动作后得到的下一时刻状态, 本次奖励信息; 所述根据所述搜索数据, 生成注意力图, 包括: 针对每一时刻的数据组, 将所述当前数据组中的下一时刻状态输入至编码器网络, 输 出得到下一时刻状态所对应的特 征值; 以及 将所述下一 时刻状态所对应的特征值输入至注意力网络, 输出得到下一 时刻状态所对 应的注意力图; 对所述注意力图进行离 散化处理, 包括: 基于预设个数k, 将所述注意力图中最大的前k个元素的值设置为1, 其余元素的值设置 为0。 4.根据权利要求1 ‑3中任一项所述的方法, 其特征在于, 所述获取初始化状态下的智能 体对图像仿真环境进行搜索的搜索数据, 包括: 针对初始化状态下的智能体, 将图像仿真环境给出的当前状态 st作为所述智能体的输 入, 所述智能体输出与所述当前状态 st对应的搜索动作 at; 图像仿真环境根据所述当前状态 st以及对应的搜索动作 at, 输出下一时刻状态 st+1、 所 述智能体获得的本次奖励信息 rt和终止标识符 dt; 基于时序进行迭代, 得到针对所述智能体的依时序分布的数据组序列, 所述数据组序 列为五元组形式: ( st,at,rt,dt,st+1) 。 5.根据权利要求3所述的方法, 其特征在于, 根据 所述虚拟奖励信 息来更新所述搜索数 据中的奖励信息, 包括: 对所述搜索数据中的所述本次奖励信 息与所述虚拟奖励信 息进行加和计算, 得到更新 后的奖励信息; 所述对应更新所述智能体的搜索策略模型, 包括:权 利 要 求 书 1/3 页 2 CN 114004370 A 2将包含更新后的奖励信 息的搜索数据作为所述智能体的搜索策略模型的输入, 基于深 度强化学习中的actor ‑critic算法对所述搜索策略模型的参数进行 更新; 其中, 所述搜索策略模型包括策略网络和值网络, 所述策略网络的输入为当前状态, 所 述策略网络的输出为针对当前状态的当前搜索动作; 所述值网络用于根据当前状态预测出 能够完成搜索任务的概 率; 对所述搜索策略模型的参数进行更新包括: 对所述策略网络和所述值网络的参数均进 行更新。 6.根据权利要求2所述的方法, 其特 征在于, 所述更新所述虚拟奖励模型, 包括: 将更新后的搜索数据中的状态信息作为所述虚拟奖励模型的输入, 基于损失函数 来更新所述虚拟奖励模型的参数; 其中, 所述损失函数 满足以下表达式: , 其中, 表示目标网络, 表示预测网络, s表示输入状态, z表示当前智能 体的编号, M表示训练数据的总个数, 表示目标网络的输出向量与预 测网络的输出向量之间的二范 数的平方。 7.根据权利要求3所述的方法, 其特征在于, 在根据 所述搜索数据, 生成注意力图之前, 还包括: 初始化注 意力模型, 所述注 意力模型的输入为当前状态和下一时刻状态, 所述注 意 力模型的输出为当前状态所对应的搜索动作的概率; 所述注意力模型包括: 所述编码器网 络、 所述注意力网络和分类 器网络; 其中, 所述分类器网络的输入为当前状态和下一时刻状态所对应的特征, 输出为下一 时刻状态所对应的动作分类结果, 所述动作分类结果为智能体的候选搜索动作中的一个; 所述当前状态所对应的搜索动作的概 率与所述动作分类结果和所述注意力图均相关。 8.根据权利要求7所述的方法, 其特征在于, 在根据 所述虚拟奖励信 息来更新所述搜索 数据中的奖励信息之后, 还 包括: 对所述注意力模型进行 更新; 其中, 所述对所述注意力模型进行更新, 包括: 将更新后的搜索数据中的状态信 息作为 所述注意力模型的输入, 基于损失函数 来更新所述注意力模型的参数; 所述损失函数 满足以下表达式: , 其中, 表示智能体真实执行的动作, 表示当前状态所对应的搜索动作的概率; 表 示 的 次方/幂; 其中 满足以下表达式: ,权 利 要 求 书 2/3 页 3 CN 114004370 A 3

.PDF文档 专利 基于深度强化学习网络构建对区域敏感的模型的方法

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于深度强化学习网络构建对区域敏感的模型的方法 第 1 页 专利 基于深度强化学习网络构建对区域敏感的模型的方法 第 2 页 专利 基于深度强化学习网络构建对区域敏感的模型的方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 00:19:53上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。