说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111679495.1 (22)申请日 2021.12.31 (71)申请人 浙江大华 技术股份有限公司 地址 310051 浙江省杭州市滨江区滨安路 1187号 (72)发明人 黄萌 李合青 陈小彪 孙璆琛  刘峻豪 罗正宇  (74)专利代理 机构 北京康信知识产权代理有限 责任公司 1 1240 代理人 王晓婷 (51)Int.Cl. G06N 3/04(2006.01) G06F 17/16(2006.01) (54)发明名称 目标神经网络模型中的操作执行方法及装 置、 存储介质 (57)摘要 本发明公开了一种目标神经网络模型中的 操作执行方法及装置、 存储介质, 其中, 上述方法 包括: 在目标神经网络模型中的多头注意力层执 行目标运算操作时, 获取多头注 意力层的输入参 数, 其中, 输入参数包括多个待处理的特征矩阵, 目标运算操作用于对输入参数与预先确定取值 的一组权重矩阵进行第一函数的运算操作, 在第 一函数中的一组权重矩 阵中存在允许合并的多 个权重矩阵; 在目标存储空间中读取第二函数中 的目标权重矩阵, 其中, 第二函数是将第一函数 中的多个权重矩阵合并之后得到的函数, 目标权 重矩阵是对多个权重矩 阵进行合并操作得到的 矩阵; 在多头注意力层对多头注 意力层的输入参 数以及目标权重矩阵执行第二函数的运算操作, 得到目标操作结果。 权利要求书3页 说明书12页 附图4页 CN 114358252 A 2022.04.15 CN 114358252 A 1.一种目标神经网络模型中的操作执 行方法, 其特 征在于, 包括: 在目标神经网络模型中的多头注意力层执行目标运算操作时, 获取所述多头注意力层 的输入参数, 其中, 所述多头注意力 层的输入参数包括多个待处理的特征矩阵, 所述目标运 算操作用于对所述多头注意力层的输入参数与预先确定取值的一组权重矩阵进行第一函 数的运算操作, 在所述第一 函数中的所述 一组权重矩阵中存在允许合并的多个权 重矩阵; 在目标存储空间中读取第二函数中的目标权重矩阵, 其中, 所述第二函数是将所述第 一函数中的多个权重矩阵合并之后得到的函数, 所述目标权重矩阵是对所述多个权重矩阵 进行合并操作得到的矩阵; 在所述多头注意力层对所述多头注意力层的输入参数以及所述目标权重矩阵执行所 述第二函数的运 算操作, 得到目标操作结果。 2.根据权利要求1所述的方法, 其特征在于, 在所述获取所述多头注意力层的输入参数 之前, 所述方法还 包括: 获取所述预先确定取值的一组权 重矩阵; 将所述一组权重矩阵中允许合并的所述多个权重矩阵进行合并, 得到所述目标权重矩 阵; 将所述目标权 重矩阵存 储在所述目标存 储空间中。 3.根据权利要求2所述的方法, 其特征在于, 所述将所述一组权重矩阵中允许合并的所 述多个权 重矩阵进行合并, 得到所述目标权 重矩阵, 包括: 通过以下合并操作, 得到所述目标权 重矩阵: Wre_proj=Wv·Wproj, 其中, 所述目标权重矩阵包括Watten和Wre_proj, 所述输入参数中的所述多个待处理的特 征矩阵包括查询矩阵、 键矩阵和值矩阵, 所述一组权重矩阵包括与所述查询矩阵对应的第 一权重矩阵Wq、 与所述键矩阵对应的第二权重矩阵Wk、 与所述值矩阵对应的第三权重矩阵 Wv、 以及第四权重矩阵Wproj, Wq和Wk是允许合并的权重矩阵, Wv和Wproj是允许合并的权重矩 阵。 4.根据权利要求3所述的方法, 其特征在于, 在执行所述合并操作之前, 所述方法还包 括: 按照如下操作对Wq和 的维度进行调整: 将 调整为 并将 调整为 其中, dmodel表示模型输入向量进行特征嵌入之后的特征向量维度, dk表示键向量进行 多头注意力映射之后的特 征向量维度, nheads表示多头注意力中注意力头的个数; 按照如下操作对Wv、 Wproj和Wre_proj的维度进行调整: 将 调整为 将 调整为 并权 利 要 求 书 1/3 页 2 CN 114358252 A 2调整为 其中, dv表示值向量进行多头注意力映射之后的特 征向量维度。 5.根据权利要求1所述的方法, 其特征在于, 所述在所述多头注意力层对所述多头注意 力层的输入参数以及所述目标权重矩阵执行所述第二函数的运算操作, 得到目标操作结 果, 包括: 通过执行以下所述第二 函数的运 算操作, 得到所述目标操作结果: Y=((Query·Watten·KeyT)·Value)·Wre_proj, 其中, Y表示所述目标操作结果, 所述输入参数中的所述多个待处理的特征矩阵包括查 询矩阵、 键矩阵和值矩阵, Qu ery表示所述查询矩阵, Key表 示所述键矩阵, Value表 示所述值 矩阵, 所述目标权 重矩阵包括 Watten和Wre_proj; 其中, Wre_proj=Wv·Wproj, 所述一组权重矩阵包括与所述查询矩阵对 应的第一权重矩阵Wq、 与所述键矩阵对 应的第二权重矩阵Wk、 与所述值矩阵对应的第三权重 矩阵Wv、 以及第四权重矩阵Wproj, Wq和Wk是允许合并的权重矩阵, Wv和Wproj是允许合并的权重 矩阵; 其中, 所述第一 函数为如下函数: 其中, scale 是预设值。 6.根据权利要求1至 5中任一项所述的方法, 其特 征在于, 在获取所述多头注意力层的输入参数之前, 所述方法还包括: 获取待进行图像识别的 原始对象信息; 获取所述原始对 象信息的一个或多个维度的特征; 根据所述一个或多个维 度的特征, 确定所述多个待处 理的特征矩阵; 在所述多头注意力层对所述多头注意力层的输入参数以及所述目标权重矩阵执行所 述第二函数的运算操作, 得到目标操作结果之后, 所述方法还包括: 根据所述目标操作结 果, 确定对所述原 始对象信息进行图像识别得到的目标对象信息 。 7.根据权利要求6所述的方法, 其特 征在于, 所述获取待 进行图像识别的原 始对象信息, 包括: 获取待确定目标对象的原 始图像; 所述根据 所述目标操作结果, 确定对所述原始对象信 息进行图像识别得到的目标对象 信息, 包括: 根据所述目标操作结果, 确定所述原 始图像的目标对象信息 。 8.一种目标神经网络模型中的操作执 行装置, 其特 征在于, 包括: 获取模块, 用于在目标神经网络模型中的多头注意力层执行目标运算操作时, 获取所 述多头注意力层的输入参数, 其中, 所述多头注意力层的输入参数包括多个待处理的特征 矩阵, 所述目标运算操作用于对所述多头注意力 层的输入参数与预先确定取值的一组权重 矩阵进行第一函数的运算操作, 在所述第一函数中的所述一组权重矩阵中存在允许合并的 多个权重矩阵; 读取模块, 用于在目标存储空间中读取第二函数中的目标权重矩阵, 其中, 所述第二函 数是将所述第一函数中的多个权重矩阵合并之后得到的函数, 所述目标权重矩阵是对所述权 利 要 求 书 2/3 页 3 CN 114358252 A 3

.PDF文档 专利 目标神经网络模型中的操作执行方法及装置、存储介质

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 目标神经网络模型中的操作执行方法及装置、存储介质 第 1 页 专利 目标神经网络模型中的操作执行方法及装置、存储介质 第 2 页 专利 目标神经网络模型中的操作执行方法及装置、存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 00:20:27上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。