专利反馈神经网络结构、在线学习方法、装置及设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210396761.8 (22)申请日 2022.04.15 (71)申请人深圳共形咨询企业(有限合伙) 地址 518000 广东省深圳市南山区南山街道南光社区南山大道1124号南油第四工业区2栋8层 (72)发明人宋金梦　 (74)专利代理机构成都知都云专利代理事务所 (普通合伙) 51306 专利代理师陈钱 (51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) G06K 9/62(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) (54)发明名称反馈神经网络结构、在线学习方法、装置及设备 (57)摘要本发明提供一种反馈神经网络结构、在线学习方法、装置及设备。该结构包括输入源，特征计算单元，注意力单元，拼接处理单元以及反馈通道：特征计算单元用于对输入系统的图片帧进行特征变换的第一前向神经网络、用于将上一帧的最终特征进行特征变换的第三前向神经网络和用于将当前帧图片的融合特征进行特征变换的第二前向神经网络；注意力单元用于将当前帧图片的融合特征与前N帧图片的融合特征融合形成当前帧的最终特征；拼接处理单元用于形成当前帧图片的融合特征。使用本发明中的反馈神经网络结构以及相对应的训练方法，可以在没有精确标注数据的情况下，在线提高网络的识别准确度，提高神经网络适应数据的能力，使神经网络可以特异性适应不同场景。权利要求书1页说明书5页附图1页 CN 114692835 A 2022.07.01 CN 114692835 A 1.一种反馈神经网络结构，其特征在于，包括：输入源：用于将视频流中的图片输入反馈神经网络结构；特征计算单元：包含用于对输入系统的图片帧进行特征变换的第一前向神经网络、用于将上一帧的最终特征进行特征变换的第三前向神经网络和用于将当前帧图片的融合特征进行特征变换的第二前向神经网络；注意力单元：用于将当前帧图片的融合特征与前N帧图片的融合特征融合形成当前帧的最终特征；拼接处理单元：用于将完成一次特征计算的当前帧图片的特征与上一帧图片的最终特征进行拼接处理，形成当前帧图片的融合特征；反馈通道：用于将上一帧图片的最终特征反馈到第三前向神经网络的通道。 2.根据权利要求1所述的反馈神经网络结构，其特征在于，将注意力单元的输出作为网络的最终输出。 3.如权利要求1中所述的反馈神经网络结构，其特征在于，所述特征计算单元第一前向神经网络和第三前向神经网络所用前向网络的输出特征图长宽相同。 4.一种基于反馈神经网络结构的在线学习方法，其特征在于，所述方法包括如下步骤：根据预先标记的训练集，对所述反馈神经网络模型的参数进行训练，获取训练后的参数集；固定除注意力单元之外所有单元的参数，按帧依次获取训练集以及所述反馈通道的反馈结果，通过强化学习训练所述注意力单元的参数。 5.根据权利要求4所述的在线学习方法，其特征在于，获取参数集的方法为利用随时间反向传播算法或用实时间回馈算法对所述反馈神经网络模型的参数进行训练。 6.根据权利要求4所述的在线学习方法，其特征在于，注意力单元的键值对的长度为4，同时key＝value。 7.根据权利要求4所述的在线学习方法，其特征在于，训练过程中只训练注意力单元的参数。 8.根据权利要求4所述的在线学习方法，其特征在于，使用强化学习方法训练注意力单元的参数,第n 帧图像Xn的最终特征是根据前m帧特征由注意力模块决定，状态转移函数由第一前向神经网络、第二前向神经网络和第三前向神经网络三个特征计算单元所抽象的函数决定。 9.一种反馈神经网络装置，其特征在于，包括如权利要求1到3任意一项所述的反馈神经网络系统。 10.一种反馈神经网络的训练装置，其特征在于，采用如权利要求4 ‑8任意一项所述的反馈神经网络训练方法。 11.一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求 4‑8中任一项所述的方法。权　利　要　求　书 1/1 页 2 CN 114692835 A 2反馈神经网络结构、在线学习方法、装置及设备技术领域 [0001]本发明涉及一种反馈神经网络结构、基于反馈神经网络的在线学习方法、装置及设备。背景技术 [0002]随着人工智能技术的飞速发展，基于递归神经网络的机器学习算法逐渐被广泛地应用到各个领域。通过使用递归神经网络拟合给定数据集的数据分布，完成特定的分类或者识别任务；由于传统机器学习算法完全依赖于精准的标注，不能特异性适应不同场景中的数据，不能够在线训练等，因此现有的学习训练方法缺乏普适性使得其难以适应不同场景的大规模数据集，可扩展性差，泛化能力弱。 [0003]在线学习可以定义为学习器和对手之间的博弈：在每一个时刻，学习器从决策空间选择一个决策，同时对手选择一个损失函数，这样学习器在当前时刻遭受损失；根据遭受的损失，学习器对当前的决策进行更新，从而决定下一时刻的决策。在线学习与传统的离线学习的区别是在线学习的参数是在使用模型过程中实时更新的，离线学习的参数是提前设定的，在使用模型的过程中不更新。 [0004]强化学习是智能体以 “试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏；其基本原理是：如果智能体的某个行为策略导致环境正的奖赏(强化信号)，那么智能体以后产生这个行为策略的趋势便会加强。强化学习不同于监督学习，主要表现在强化信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号)，而不是告诉强化学习系统如何去产生正确的动作。由于外部环境提供的信息很少，强化学习系统必须靠自身的经历进行学习。通过这种方式，强化学习系统在行动 ‑‑评价的环境中获得知识，改进行动方案以适应环境。 [0005]强化学习的要素包括奖励函数、状态空间、动作空间、状态转移函数和贴现因子。 [0006]奖励函数：奖励函数根据具体的任务而定，可以为正向奖函数也可以为负向奖励函数或者可以基于多个奖励函数的综合作用，从而实现对于训练的结果导向作用，具体在本实施方式中，奖励函数是基于误差,来修改权值和阈值的,完成训练并迭代,直到达到迭代次数或满足精度。 [0007]状态空间：状态是指在系统中决定系统状态的最小数目的变量的有序集合。而所谓状态空间则是指该系统的全部可能状态的集合。 [0008]动作空间：通过定性多个空间关系，给出多个空间某个场景在不同动作下的状态转移和函数变化。 [0009]状态转移函数：用来确定从一个状态S如何转移到下一个状态T。 [0010]贴现因子：依据具体任务设计，用于对数据模型的偏移和结果进行矫正。 [0011]目前针对在线学习和强化学习的反馈神经网络训练模型仍处于理论研究阶段，由于模型训练、数据准备以及模型泛化能力弱等原因，除了语音处理以外，在工业界其它领域鲜有应用；提出更好的模型结构以及新的训练方法以适应不同的应用场景，从而有效应用说　明　书 1/5 页 3 CN 114692835 A 3

专利 反馈神经网络结构、在线学习方法、装置及设备

专利反馈神经网络结构、在线学习方法、装置及设备