说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211038909.7 (22)申请日 2022.08.29 (71)申请人 无锡江南计算 技术研究所 地址 214100 江苏省无锡市滨湖区山水东 路188号 (72)发明人 谭弘兵 王迪 王吉军 张昆  郝子宇 李宏亮  (74)专利代理 机构 浙江千克知识产权代理有限 公司 33246 专利代理师 汪丹琪 (51)Int.Cl. G06F 9/50(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种用于脉动阵列的数据调度方法 (57)摘要 一种用于脉动阵列的数据调度方法, 属于神 经网络技术领域。 本发明包括: 步骤1, 令待卷积/ 待矩阵乘的数据A分布在m个核心上; 步骤2, 将数 据B广播给m个核心, m个核心 每轮得到相同的b进 行计算; 步骤3, 当每个核心上的分布式数据A与 所有的b计算完成, 将结果写回主存; 步骤4, 重复 步骤1‑3进行数据A下一部分的计算。 本发明能够 有效提升片上数据的复用次数, 降低带宽需求, 可以有效提升 硬件加速 器性能。 权利要求书1页 说明书4页 附图3页 CN 115237603 A 2022.10.25 CN 115237603 A 1.一种用于脉动阵列的数据调度方法, 定义卷积计算/矩阵乘计算的公式为A*B=C, A、 B、 C均为多维向量, 其特 征在于, 所述数据调度方法包括: 步骤1, 令待卷积/待矩阵乘的数据A分布在m个核心上; 步骤2, 将数据B广播给m个核心, m个核心每 轮得到相同的b进行计算; 步骤3, 当每 个核心上的分布式数据A与所有的b计算完成, 将结果写回主存; 步骤4, 重复步骤1 ‑3进行数据A下一部分的计算。 2.根据权利要求1所述的一种用于脉动阵列的数据调度方法, 其特征在于, 若数据A合 并方向包括 n行/列数据, 则所述数据调度方法包括: 步骤1, 将m个核心分为g组, 以n组核心为一个单元, 每组核心数量对应每行/列上数据A 的数量; 步骤2, 令待卷积/待矩阵乘的数据A分布在m个核心上; 步骤3, 将每列/行数据B分别广播给g/n个单元, 令数据B在同一单元中的n组核心之间 广播; 步骤4, 每一组核心完成一轮计算后, 在组内的核心之间交换数据A, 直至得到完整计算 结果; 步骤5, 每 个核心将完整计算结果写回主存。 3.根据权利要求1所述的一种用于脉动阵列的数据调度 方法, 其特征在于, 若数据A和B 合并方向均包括多行/列数据, 则所述数据调度方法包括: 步骤1, 令待卷积/待矩阵乘的数据A和B均分布在m个核心上; 步骤2, 每 个核心分别对不同的A和B进行计算; 步骤3, 将m个核心的计算结果 通过核间通信, 合并得到 完整结果后写回主存。权 利 要 求 书 1/1 页 2 CN 115237603 A 2一种用于脉动阵列的数据调度方 法 技术领域 [0001]本发明涉及神经网络技 术领域, 尤其涉及一种用于脉动阵列的数据调度方法。 背景技术 [0002]深度神经网络模型规模以及数据集的不断增大, 对硬件访存带宽的需求急剧增 大, 访存瓶颈日益加剧, 采用脉动阵列加速矩阵乘/卷积运算是学术界、 工业界的常见方法 之一。 脉动阵列的特点是数据在阵列内计算单元之 间流动, 能有效提升数据复用次数, 减少 访存量, 进 而降低带宽需求。 [0003]基于申威 ‑AI加速芯片结构, 提出用于脉动阵列的多样式调度策略。 申威 ‑AI芯片 的具备两级阵列结构: m个处理核心, 每个核心具备一个n ×n维度的脉动阵列计算。 两级阵 列结构为卷积与矩阵乘算法的映射计算提供了多样式的映射空间。 然而, 目前缺少一种进 一步增加片上数据的重用率, 减少与片外的重复数据 交互的数据调度方法, 以进一步降低 带宽需求, 提升硬件加速器的性能。 发明内容 [0004]本发明的目的是为了解决上述现有技术存在的问题, 提供一种用于脉动阵列的数 据调度方法, 其能够有效提升片上数据的复用次数, 降低带宽需求, 可以有效提升硬件加速 器性能。 [0005]本发明的目的是通过以下技 术方案实现的: 一种用于脉动阵列的数据调度方法, 定义卷积计算/矩阵乘计算 的公式为A*B=C, A、 B、 C均为多维向量, 所述数据调度方法包括: 步骤1, 令待卷积/待矩阵乘的数据A分布在m个核心上; 步骤2, 将数据B广播给m个核心, m个核心每 轮得到相同的b进行计算; 步骤3, 当每 个核心上的分布式数据A与所有的b计算完成, 将结果写回主存; 步骤4, 重复步骤1 ‑3进行数据A下一部分的计算。 [0006]上述方法对分布式的数据A复用率最高, 即不会出现片外的重复访存; 广播数据B 出现了重复的片外访存, 但考虑到其访存模式为广播, 对访存带宽的需求较低。 当然, 该方 法也可以是A数据 广播, 而B数据分布。 [0007]作为本发明优选, 若数据A合并方向包括 n行/列数据, 则所述数据调度方法包括: 步骤1, 将m个核心分为g组, 以n组核心为一个单元, 每组核心数量对应每行/列上 数据A的数量; 步骤2, 令待卷积/待矩阵乘的数据A分布在m个核心上; 步骤3, 将每列/行数据B分别广播给g/n个单元, 令数据B在同一单元中的n组核心 之间广播; 步骤4, 每一组核心完成一轮计算后, 在组内的核心之间交换数据A, 直至得到完整 计算结果;说 明 书 1/4 页 3 CN 115237603 A 3

.PDF文档 专利 一种用于脉动阵列的数据调度方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种用于脉动阵列的数据调度方法 第 1 页 专利 一种用于脉动阵列的数据调度方法 第 2 页 专利 一种用于脉动阵列的数据调度方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:10:17上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。