说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210396761.8 (22)申请日 2022.04.15 (71)申请人 深圳共形咨询企业(有限合 伙) 地址 518000 广东省深圳市南 山区南山街 道南光社区南山大道1124号南油第四 工业区2栋8层 (72)发明人 宋金梦  (74)专利代理 机构 成都知都云专利代理事务所 (普通合伙) 51306 专利代理师 陈钱 (51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) G06K 9/62(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) (54)发明名称 反馈神经网络结构、 在线学习方法、 装置及 设备 (57)摘要 本发明提供一种反馈神经网络结构、 在 线学 习方法、 装置及设备。 该结构 包括输入源, 特征计 算单元, 注意力单元, 拼接处理单元以及反馈通 道: 特征计算单元用于对输入系统的图片帧进行 特征变换的第一前向神经网络、 用于将上一帧的 最终特征进行特征变换的第三前向神经网络和 用于将当前帧图片的融合特征进行特征变换的 第二前向神经网络; 注意力单元用于将当前帧图 片的融合特征与前N帧图片的融合特征融合形成 当前帧的最终特征; 拼接处理单元用于形成当前 帧图片的融合特征。 使用本发明中的反馈神经网 络结构以及相对应的训练方法, 可以在没有精确 标注数据的情况下, 在线提高网络的识别准确 度, 提高神经网络适应数据的能力, 使神经网络 可以特异性 适应不同场景。 权利要求书1页 说明书5页 附图1页 CN 114692835 A 2022.07.01 CN 114692835 A 1.一种反馈神经网络结构, 其特 征在于, 包括: 输入源: 用于将视频流中的图片输入反馈神经网络结构; 特征计算单元: 包含用于对输入系统的图片帧进行特征变换的第一前向神经网络、 用 于将上一帧的最终特征进行特征变换的第三前向神经网络和用于将当前帧图片的融合特 征进行特征变换的第二前向神经网络; 注意力单元: 用于将当前帧图片的融合特征与前N帧图片的融合特征融合形成当前帧 的最终特 征; 拼接处理单元: 用于将完成一 次特征计算的当前帧图片的特征与上一帧图片的最终特 征进行拼接处 理, 形成当前帧图片的融合特 征; 反馈通道: 用于将上一帧图片的最终特 征反馈到第三前向神经网络的通道。 2.根据权利要求1所述的反馈神经网络结构, 其特征在于, 将注意力单元的输出作为网 络的最终输出。 3.如权利要求1中所述的反馈神经网络结构, 其特征在于, 所述特征计算单元第 一前向 神经网络和第三前向神经网络所用前向网络的输出 特征图长宽相同。 4.一种基于反馈神经网络结构的在线学习方法, 其特 征在于, 所述方法包括如下步骤: 根据预先标记 的训练集, 对所述反馈神经网络模型的参数进行训练, 获取训练后的参 数集; 固定除注意力单元之外所有单元的参数, 按帧依次获取训练集以及所述反馈通道的反 馈结果, 通过强化学习训练所述注意力单 元的参数。 5.根据权利要求4所述的在线学习方法, 其特征在于, 获取参数集的方法为利用随时间 反向传播 算法或用实时间回馈算法对所述反馈神经网络模型的参数进行训练。 6.根据权利要求4所述的在线学习方法, 其特征在于, 注意力单元的键值对的长度为4, 同时key=value。 7.根据权利要求4所述的在线学习方法, 其特征在于, 训练过程中只训练注意力单元的 参数。 8.根据权利要求4所述的在线学习方法, 其特征在于, 使用强化学习方法训练注意力单 元的参数,第n 帧图像Xn的最终特征是根据前m帧特征由注意力模块决定, 状态转移函数由 第一前向神经网络、 第二前向神经网络和 第三前向神经网络三个特征计算单元所抽象的函 数决定。 9.一种反馈神经网络装置, 其特征在于, 包括如权利要求1到3任意一项所述的反馈神 经网络系统。 10.一种反馈神经网络的训练装置, 其特征在于, 采用 如权利要求4 ‑8任意一项所述的 反馈神经网络训练方法。 11.一种电子设备, 其特 征在于, 包括: 至少一个处理器; 以及与所述至少一个处理器通信连接的存储器; 其中, 所述存储器存 储有可被所述至少一个处理器执行 的指令, 所述指令被所述至少一个处理器执行, 以使所 述至少一个处 理器能够执 行权利要求 4‑8中任一项所述的方法。权 利 要 求 书 1/1 页 2 CN 114692835 A 2反馈神经 网络结构、 在线学习方 法、 装置及设备 技术领域 [0001]本发明涉及一种反馈神经网络结构、 基于反馈神经网络 的在线学习方法、 装置及 设备。 背景技术 [0002]随着人工智能技术的飞速发展, 基于递归神经网络的机器学习算法逐渐被广泛地 应用到各个领域。 通过使用递归神经网络拟合给定数据集的数据分布, 完成特定的分类或 者识别任务; 由于传统机器学习算法完全依赖于精准的标注, 不能特异性适应不同场景中 的数据, 不能够在线训练等, 因此现有的学习训练方法缺 乏普适性使得其难以适应不同场 景的大规模数据集, 可扩展性差, 泛化能力 弱。 [0003]在线学习可以定义为学习器和对手之间的博弈: 在每一个时刻, 学习器从决策空 间选择一个决策, 同时对手选择一个损失函数, 这样学习器在当前时刻遭受损失; 根据遭受 的损失, 学习器对当前的决策进 行更新, 从而决定下一时刻的决策。 在线 学习与传统的离线 学习的区别是在线学习的参数是在使用模型过程中实时更新的, 离线 学习的参数是提前设 定的, 在使用模型的过程中不更新。 [0004]强化学习是智能体以 “试错”的方式进行学习, 通过与环境进行交互获得的奖赏指 导行为, 目标是使智能体获得最大的奖赏; 其基本原理是: 如果智能体的某个行为策略导致 环境正的奖赏(强化信号), 那么智能体以后产生这个行为策略的趋势便会加强。 强化学习 不同于监督学习, 主要表现在强化信号上, 强化学习中由环境提供 的强化信号是对产生动 作的好坏作一种评价(通常为标量信号), 而不是告诉强化学习系统如何去产生正确的动 作。 由于外部环境提供的信息很少, 强化学习系统必须靠自身的经历进 行学习。 通过这种方 式, 强化学习 系统在行动 ‑‑评价的环境中获得知识, 改进行动方案以适应环境。 [0005]强化学习的要素包括奖励函数、 状态空间、 动作空间、 状态转移函数和贴现因子 。 [0006]奖励函数: 奖励函数根据具体的任务而定, 可以为正向奖函数也可以为负向奖励 函数或者可以基于多个奖励函数 的综合作用, 从而实现对于训练的结果导向作用, 具体在 本实施方式中, 奖励函数是基于误差,来修改权值和阈值的,完成训练并迭代,直到达到迭 代次数或满足精度。 [0007]状态空间: 状态是指在系统中决定系统状态的最小数目的变量的有序集合。 而所 谓状态空间则是指该系统的全部可能状态的集 合。 [0008]动作空间: 通过定性多个空间关系, 给出多个空间某个场景在不 同动作下的状态 转移和函数变化。 [0009]状态转移函数: 用来确定从一个 状态S如何转移到下一个 状态T。 [0010]贴现因子: 依据具体任务设计, 用于对数据模型的偏移和结果进行矫 正。 [0011]目前针对在线学习和强化学习的反馈神经网络训练模型仍处于 理论研究阶段, 由 于模型训练、 数据准备以及 模型泛化能力弱等原因, 除了语音处理以外, 在工业界其它领域 鲜有应用; 提出更好的模型结构以及新的训练方法以适应不同的应用场景, 从而有效应用说 明 书 1/5 页 3 CN 114692835 A 3

.PDF文档 专利 反馈神经网络结构、在线学习方法、装置及设备

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 反馈神经网络结构、在线学习方法、装置及设备 第 1 页 专利 反馈神经网络结构、在线学习方法、装置及设备 第 2 页 专利 反馈神经网络结构、在线学习方法、装置及设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:36:19上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。