说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211135735.6 (22)申请日 2022.09.19 (71)申请人 深圳思谋信息科技有限公司 地址 518051 广东省深圳市南 山区前海嘉 里中心T2栋2 2层 (72)发明人 白杨 郑海生 沈小勇 吕江波  (74)专利代理 机构 华进联合专利商标代理有限 公司 44224 专利代理师 关志琨 (51)Int.Cl. G06F 9/50(2006.01) G06F 12/02(2006.01) G06F 12/0811(2016.01) G06V 10/82(2022.01) G06N 3/063(2006.01)G06N 3/04(2006.01) (54)发明名称 卷积优化运算方法、 装置、 计算机设备及存 储介质 (57)摘要 本申请涉及一种卷积优化运算方法、 装置、 计算机设备及存储介质。 方法包括: 获取全局内 存中的特征图数据; 将当前原始特征图输入至 DepthWise卷积模型中进行第一核心运算, 得到 第一中间特征图, 并将第一中间特征图加载至共 享内存中; 对第一中间特征图进行拆分处理, 得 到多个第二中间特征图, 并将各第二中间特征图 加载至寄存器内存中; 分别将各第二中间特征图 输入至PointWise卷积模型中进行第二核心运 算, 得到本次的结果特征图数据, 并将本次的结 果特征图数据加载至全局内存中; 将与当前原始 特征图相邻的下一个原始特征图作为当前原始 特征图进行循环处理, 直至得到全部结果特征图 数据。 采用本申请实施例, 能够对可分离卷积运 算进行加速 。 权利要求书2页 说明书9页 附图3页 CN 115480919 A 2022.12.16 CN 115480919 A 1.一种卷积优化 运算方法, 其特 征在于, 包括: 获取全局内存中的特 征图数据; 所述特 征图数据包括多个原 始特征图; 将当前原始特征图输入至DepthWise卷积模型中进行第一核心运算, 得到第一中间特 征图, 并将所述第一中间特 征图加载至共享内存中; 对所述第一中间特征图进行拆分处理, 得到多个第二中间特征图, 并将各所述第二中 间特征图加载至寄存器内存中; 分别将各所述第二中间特征图输入至PointWise卷积模型中进行第二核心运算, 得到 本次的结果特征图数据, 并将所述本次的结果特征图数据加载至所述全局内存中; 所述第 二核心运 算是调用Tensor  Core完成的; 将与所述当前原始特征图相邻的下一个原始特征图作为所述当前原始特征图进行循 环处理, 直至得到全部结果特 征图数据。 2.根据权利要求1所述的方法, 其特征在于, 所述将所述第 一中间特征图加载至共享内 存中, 包括: 将从所述全局内存中加载至所述共享内存中的各内存地址, 按照奇偶交替顺序进行排 列, 得到排列后的内存地址; 把所述第一中间特 征图存储至相应的所述 排列后的内存地址中。 3.根据权利要求2所述的方法, 其特征在于, 所述对所述第一中间特征图进行拆分处 理, 得到多个第二中间特 征图, 包括: 根据所述第一中间特征图的宽度, 对所述第一中间特征图进行拆分处理, 得到多个第 二中间特 征图; 各所述第二中间特 征图与所述第一中间特 征图通道个数相同; 其中, 所述第二中间特 征图的数量 为所述第一中间特 征图的宽度均匀等分的结果。 4.根据权利要求1所述的方法, 其特征在于, 所述分别将各所述第 二中间特征图输入至 PointWise卷积模型中进行第二核心运 算, 得到本次的结果特 征图数据, 包括: 获取各所述第二中间特 征图的数据类型; 根据所述数据类型, 确定最小矩阵乘加运 算单元; 采用所述最小矩阵乘加运算单元, 对各所述第二中间特征图进行第二核心运算, 得到 本次的结果特 征图数据。 5.根据权利要求1至4任意一项所述的方法, 其特征在于, 所述将与所述当前原始特征 图相邻的下一个原始特征图作为所述当前原始特征图进行循环处理, 直至得到全部结果特 征图数据, 包括: 根据所述原始特征图的数量和所述第 二中间特征图的数量, 确定得到全部结果特征图 数据所需的处 理次数; 根据所述处理次数, 将与 所述当前原始特征图相邻的下一个原始特征图作为所述当前 原始特征图进行循环处 理, 直至得到全部结果特 征图数据。 6.根据权利要求5所述的方法, 其特征在于, 所述根据所述原始特征图的数量和所述第 二中间特 征图的数量, 确定得到全部结果特 征图数据所需的处 理次数, 包括: 计算所述原始特征图的数量与所述第 二中间特征图的数量的乘积, 所述乘积为得到全 部结果特 征图数据所需的处 理次数。 7.根据权利要求1所述的方法, 其特征在于, 所述第一核心运算是调用CUDA  Core完成权 利 要 求 书 1/2 页 2 CN 115480919 A 2的。 8.一种卷积优化 运算装置, 其特 征在于, 包括: 获取模块, 用于获取全局内存中的特 征图数据; 所述特 征图数据包括多个原 始特征图; 第一运算模块, 用于将当前原始特征图输入至DepthWise卷积模型中进行第一核心运 算, 得到第一中间特 征图, 并将所述第一中间特 征图加载至共享内存中; 拆分模块, 用于对所述第 一中间特征图进行拆分处理, 得到多个第二中间特征图, 并将 各所述第二中间特 征图加载至寄存器内存中; 第二运算模块, 用于分别将各所述第二中间特征图输入至PointWise卷积模型中进行 第二核心运算, 得到本次的结果特征图数据, 并将所述本次的结果特征图数据加载至所述 全局内存中; 所述第二核心运 算是调用Tensor  Core完成的; 结果模块, 用于将与 所述当前原始特征图相邻的下一个原始特征图作为所述当前原始 特征图进行循环处 理, 直至得到全部结果特 征图数据。 9.一种计算机设备, 所述计算机设备包括存储器和处理器, 所述存储器存储有计算机 程序, 其特征在于, 所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的 方法的步骤。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 115480919 A 3

.PDF文档 专利 卷积优化运算方法、装置、计算机设备及存储介质

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 卷积优化运算方法、装置、计算机设备及存储介质 第 1 页 专利 卷积优化运算方法、装置、计算机设备及存储介质 第 2 页 专利 卷积优化运算方法、装置、计算机设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:12:28上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。