说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211118517.1 (22)申请日 2022.09.15 (71)申请人 太初 (无锡) 电子科技有限公司 地址 214000 江苏省无锡市滨湖区建 筑西 路777号A3幢3层318室 (72)发明人 闫夏超 徐旎林 张文斌 叶楠  高伟  (74)专利代理 机构 北京品源专利代理有限公司 11332 专利代理师 侯军洋 (51)Int.Cl. G06F 15/80(2006.01) G06F 9/50(2006.01) G06N 3/04(2006.01) G06N 3/063(2006.01) (54)发明名称 一种算子融合处理方法、 装置、 设备及存储 介质 (57)摘要 本发明公开了一种算子融合处理方法、 装 置、 设备及存储介质, 应用于异构众核加速处理 器中, 包括: 接收目标网络的运算请求, 确定多个 目标算子, 通过主核调用各目标算子的正向融合 接口; 通过多个从核采用匹配的加速部件对各目 标算子进行前向计算, 得到目标算子的第一输出 结果; 根据目标算子在网络中的组成结构, 在第 一输出结果中确定目标输出结果写回至内存中; 通过主核调用各目标算子的反向融合接口, 通过 多个从核采用匹配的加速部件对各目标算子进 行反向计算, 得到目标算子的第二输出结果。 本 发明实施例的技术方案可以降低对访存带宽的 占用率, 提高对目标网络中算子的处理效率以及 处理器中硬件资源的利用率。 权利要求书2页 说明书11页 附图4页 CN 115203126 A 2022.10.18 CN 115203126 A 1.一种算子 融合处理方法, 其特征在于, 应用于异构众核加速处理器中, 所述算子 融合 处理方法包括: 接收到目标网络的运算请求后, 确定目标网络中包括的多个目标算子, 并通过主核调 用各目标算子的正向融合接口; 通过多个从核, 同时分别采用与各目标算子匹配的加速部件, 对各目标算子进行前向 计算, 得到各目标算子对应的第一输出结果; 根据各所述 目标算子在目标网络中的组成结 构, 在多个第一输出结果中筛选中间处理结果, 并将除中间处理结果之外的其他输出结果, 作为目标输出 结果写回至内存中; 通过主核调用各目标算子的反向融合接口, 并通过多个从核, 同时分别采用与各目标 算子匹配的加速部件, 根据目标输出结果对各目标算子进行反向计算, 得到各目标算子对 应的第二输出 结果; 其中, 所述加速 部件包括矩阵乘加速 部件以及非矩阵乘加速 部件。 2.根据权利要求1所述的算子融合处理方法, 其特征在于, 根据 各所述目标算子在目标 网络中的组成结构, 在多个第一输出结果中筛选中间处理结果, 并将除中间处理结果之外 的其他输出结果, 作为目标输出 结果, 包括: 根据各所述目标算子在目标网络中的组成结构、 各第一输出结果的反向计算关联度, 以及各第一输出 结果的计算 量, 在各第一输出 结果中确定中间处 理结果; 将除中间处 理结果之外的其 他输出结果, 作为目标输出 结果; 其中, 所述反向计算关联度, 用于表征第一输出结果在反向计算过程中与各目标算子 的关联程度。 3.根据权利要求1所述的算子融合处理方法, 其特征在于, 通过多个从核, 同时分别采 用与各目标算子匹配的加速部件, 对各目标算子进行前向计算, 得到各目标算子对应的第 一输出结果, 包括: 通过多个从核, 从内存中获取各所述目标算子对应的第一输入数据, 并将各所述目标 算子对应的第一输入数据存 储至对应的高速缓存中; 通过多个从核, 从对应的高速缓存中获取各目标算子对应的第一输入数据, 并根据所 述第一输入数据, 同时分别采用与各目标算子匹配的加速部件, 对各目标算子进行前向计 算, 得到各目标算子对应的第一输出 结果。 4.根据权利要求3所述的算子融合处理方法, 其特征在于, 根据所述第一输入数据, 同 时分别采用与各目标算子匹配的加速部件, 对各目标算子进行前向计算, 得到各目标算子 对应的第一输出 结果, 包括: 如果所述目标算子的运算类型为非矩阵乘运算, 则通过多个从核采用非矩阵乘加速部 件, 根据所述第一输入数据对目标算子进行 前向计算, 得到目标算子对应的第一输出 结果; 如果所述目标算子的运算类型为矩阵乘运算, 则通过多个从核采用矩阵乘加速部件, 根据所述第一输入数据对目标算子进行 前向计算, 得到目标算子对应的第一输出 结果。 5.根据权利要求1所述的算子融合处理方法, 其特征在于, 通过多个从核, 同时分别采 用与各目标算子匹配的加速部件, 根据目标输出结果对各目标算子进行反向计算, 得到各 目标算子对应的第二输出 结果, 包括: 通过多个从核, 从内存中获取目标输出结果, 以及各目标算子对应的第 二输入数据, 并权 利 要 求 书 1/2 页 2 CN 115203126 A 2将目标输出 结果以及第二输入数据存 储至对应的高速缓存中; 通过多个从核, 从高速缓存中获取目标输出结果以及第二输入数据, 并同时分别采用 与各目标算子匹配的加速部件, 根据目标输出结果以及第二输入数据, 对各目标算子进行 反向计算, 得到各目标算子对应的第二输出 结果。 6.根据权利要求1所述的算子融合处理方法, 其特征在于, 如果多个目标算子的运算类 型包括非矩阵乘运算和矩阵乘运算, 通过多个从核, 同时分别采用与各目标算子匹配的加 速部件, 对各目标算子进行 前向计算, 得到各目标算子对应的第一输出 结果, 包括: 通过多个从核, 采用矩阵乘加速部件, 对 匹配的目标算子进行前向计算的同时, 采用非 矩阵乘加速 部件, 对匹配的目标算子进行 前向计算, 得到各目标算子对应的第一输出 结果。 7.根据权利要求6所述的算子融合处理方法, 其特征在于, 通过多个从核, 同时分别采 用与各目标算子匹配的加速部件, 根据目标输出结果对各目标算子进行反向计算, 得到各 目标算子对应的第二输出 结果, 包括: 通过多个从核, 根据目标输出结果采用矩阵乘加速部件, 对匹配的目标算子进行反向 计算的同时, 采用非矩阵乘加速部件, 对匹配的目标算子进 行反向计算, 得到各目标算子对 应的第二输出 结果。 8.一种算子 融合处理装置, 其特征在于, 应用于异构众核加速处理器中, 所述算子 融合 处理装置包括: 正向接口调用模块, 用于接收到目标网络的运算请求后, 确定目标网络中包括的多个 目标算子, 并通过主 核调用各目标算子的正向融合接口; 前向计算模块, 用于通过多个从核, 同时分别采用与各目标算子匹配的加速部件, 对各 目标算子进行 前向计算, 得到各目标算子对应的第一输出 结果; 结果写入模块, 用于根据各所述目标算子在目标网络中的组成结构, 在多个第一输出 结果中筛选中间处理结果, 并将除中间处理结果之外的其他输出结果, 作为 目标输出结果 写回至内存中; 反向计算模块, 用于通过主核调用各目标算子的反向融合接口, 并通过多个从核, 同时 分别采用与各目标算子匹配的加速部件, 根据目标输出结果对各目标算子进行反向计算, 得到各目标算子对应的第二输出 结果; 其中, 所述加速 部件包括矩阵乘加速 部件以及非矩阵乘加速 部件。 9.一种电子设备, 所述电子设备包括: 一个或多个异构众核加速处 理器; 存储装置, 用于存 储一个或多个程序; 当所述一个或多个程序被一个或多个异构众核加速处理器执行, 使得所述一个或多个 异构众核加速处理器执行所述一个或多个程序时实现如权利要求 1‑7中任一所述的算子融 合处理方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器 执行时实现如权利要求1 ‑7中任一所述的算子融合处 理方法。权 利 要 求 书 2/2 页 3 CN 115203126 A 3

.PDF文档 专利 一种算子融合处理方法、装置、设备及存储介质

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种算子融合处理方法、装置、设备及存储介质 第 1 页 专利 一种算子融合处理方法、装置、设备及存储介质 第 2 页 专利 一种算子融合处理方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:10:25上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。