说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210922499.6 (22)申请日 2022.08.02 (65)同一申请的已公布的文献号 申请公布号 CN 114970294 A (43)申请公布日 2022.08.30 (73)专利权人 山东省计算中心 (国家超 级计算 济南中心) 地址 250014 山东省济南市历下区科院路 19号 (72)发明人 潘景山 肖磊 田敏 杜伟  张赞军 刘弢  (74)专利代理 机构 济南圣达知识产权代理有限 公司 372 21 专利代理师 李琳(51)Int.Cl. G06F 30/23(2020.01) G06T 17/20(2006.01) G06F 9/50(2006.01) (56)对比文件 CN 111104765 A,2020.0 5.05 CN 112559032 A,2021.0 3.26 CN 114218736 A,2022.03.22 CN 113553288 A,2021.10.26 CN 102880510 A,2013.01.16 CN 112765094 A,2021.0 5.07 CN 109828790 A,2019.0 5.31 CN 110362780 A,2019.10.2 2 CN 113012023 A,2021.0 6.22 审查员 杨欢 (54)发明名称 基于神威架构的三维应变仿真PC G并行优化 方法及系统 (57)摘要 本发明属于数据处理技术领域, 提供了基于 神威架构的三维应变仿真PCG并行优化方法及系 统, 该方案通过对弹性体三维应变仿真PCG迭代 算法数据划分优化、 从核访存优化、 双缓冲优化 策略、 任务并行与数据并行结合优化、 从核间RMA 通信优化, 该方法为针对神威新一代超算平台开 发、 移植或优化应变弹性固体的平衡仿真程序的 开发人员提供了一种通用的优化方法。 权利要求书1页 说明书7页 附图2页 CN 114970294 B 2022.10.25 CN 114970294 B 1.基于神威架构的三维应变仿真PCG并行优化方法, 其特征在于, 该方法基于SW26010   Pro处理器实现, 包括如下步骤: 对弹性体三维应 变仿真程序进行剖分, 寻找程序中计算密集型算法部分; 所述对弹性体三维应变仿真程序进行剖分, 寻找程序中计算密集型算法部分通过采用 手动插桩的形式, 在程序内部进行细粒度的热点分析; 将程序中计算密集型算法部分分割为多个计算任务, 并行分发至一个或多个主核; 主 从核协同合作, 将模型中的网格点分别 分到不同的主核中, 再由主核分配给其附属从核进 行计算; 程序中计算密集型算法部 分通过MPI将 计算任务以有限元的形式分发至主核, 主核 得到的有限元的数量 就是算法中循环最外层的维度; 从核采用静态数组的形式接收分发的数据; 每个主核将任务对应的数据进行分割, 将其分发给一个或多个从核 进行并行计算; 从核将程序中计算密集型算法的迭代结果回传至主 核。 2.根据权利要求1所述的基于神威架构的三维应变仿真PCG并行优化方法, 其特征在 于, 从核进行计算时, 采用双缓冲优化策略, 在局部定义两个等同的数据数组, 形成输出双 缓冲, 在本次计算中同时将上次计算的结果发回主存。 3.根据权利要求2所述的基于神威架构的三维应变仿真PCG并行优化方法, 其特征在 于, 所述双缓冲优化策略具体包括当输入的是计算本轮次时, 发起下个轮次的数据指 令, 当 下一轮判断数据传到之后开始进行计算, 接着发起下一轮次的数据传输指令, 通过这种方 案将计算与数据传输时间重 叠。 4.根据权利要求1所述的基于神威架构的三维应变仿真PCG并行优化方法, 其特征在 于, 从核采用DMA数据传输的形式访问主存。 5.根据权利要求1所述的基于神威架构的三维应变仿真PCG并行优化方法, 其特征在 于, 从核进行并行计算时, 采用向量 化部件SWSIMD进行处 理数据。 6.根据权利要求1所述的基于神威架构的三维应变仿真PCG并行优化方法, 其特征在 于, 不同从核间采用RMA传输的通信方式进行消息传递。 7.基于神威架构的三维应 变仿真PCG并行优化系统, 其特 征在于, 包括: 算法搜索模块, 用于对弹性体三维应变仿真程序进行剖分, 寻找程序中计算密集型算 法部分; 所述对弹性体三维应变仿真程序进行剖分, 寻找程序中计算密集型算法部分通过 采用手动插 桩的形式, 在程序内部进行细粒度的热点分析; 任务分发模块, 用于将程序中计算密集型算法部分分割为多个计算任务, 并行分发至 一个或多个主核; 程序中计算密集型算法部分通过MPI将计算任务以有限元 的形式分发至 主核, 主核得到的有限元的数量 就是算法中循环最外层的维度; 从核采用静态数组的形式接收分发的数据; 数据分发模块, 用于每个主核将任务对应的数据进行分割, 将其分发给一个或多个从 核进行并行计算; 数据回传模块, 用于从核将程序中计算密集型算法的迭代结果回传至主 核。权 利 要 求 书 1/1 页 2 CN 114970294 B 2基于神威架构的三维应变 仿真PCG并行优化方 法及系统 技术领域 [0001]本发明属于数据处理技术领域, 尤其涉及基于神威架构的三维应变仿真PCG并行 优化方法及系统。 背景技术 [0002]本部分的陈述仅仅是提供了与本发明相关的背景技术信息, 不必然构成在先技 术。 [0003]弹性体的三维应变仿真分析应用于很多大型的工程之中, 例如地基应力与沉降计 算原理、 混凝土材料受拉劈裂实验的力学原理, 工程应变分析、 结构 中的剪力滞后问题等。 在弹性体的三 维应变仿 真分析过程中, 采用了P CG迭代的方式来进 行方程组的求解, 这也是 整个程序的计算密集 算法。 [0004]PCG(Preconditioned  Conjugate  Gradient, 预 处理共轭梯度算法) 是一种利用多 次迭代对方程组进行求解的方法。 相比于使用直接法求解方程组, 其对于存储空间的要求 不高且扩展性良好, 在涉及方程组求解的科学计算应用中具有一定的优势。 大规模方程组 求解在高性能计算机上进 行计算时, 使用直接法往往会因为程序的崩溃而导致之前的计算 成为无效计算。 再次进 行计算时, 之前已经计算过的部 分要进行重新计算, 浪费了大量的时 间与计算资源, 使用PCG算法能够有效地 解决这一问题。 [0005]但目前在神威新一代国产超算中并没有针对神威架构对PCG算法的相关优化研 究, 这使得PCG算法在神威架构上难以发挥其收敛速度快、 存 储量小的等优势特点。 [0006]同时随着实际工程所要求精度的提高, 单一计算机难以满足各种实际应用的模拟 要求, 需借助高性能计算机来进行一系列应用的仿真与模拟。 [0007]神威新一代超级计算机系统继承和发展了 “神威·太湖之光 ”体系架构, 基于神威 新一代高性能异构众核处理器和互连网络 芯片构建。 系统由运算系统、 互连网络系统、 软件 系统、 外围服务系统、 维护诊断系统、 电源系统、 冷却系统组成, 支持MPI、 OpenMP、 OpenACC等 并行编程环境神 威新一代超级计算机编译器得到了极大的优化, 然而从核受 限于LDM空间 大小, 使得弹性体的三维应变仿真程序无法直接在从核运行, 无法直接有效的利用神 威新 一代超级计算机强大的计算能力。 [0008]目前虽然有一些并行有限元相关的程序优化, 但是并没有针对神威架构对弹性体 的三维应变仿真程序中的PCG算法的相关优化研究, 这使得弹性体的三维应变仿真程序在 神威架构上计算时间较长, 不利于进行仿真模拟。 发明内容 [0009]为了解决上述背景技术中存在的至少一项技术问题, 本发明提供基于神威架构的 三维应变仿 真PCG并行优化方法, 其针对神威新一代超级计算机体系结构的特征以及P CG算 法优化的需要, 提供了高效的并行实现方式, 该优化方法的提出对于弹性体的三维应变仿 真程序以及PCG算法在国产高性能计算平台 高效应用有一定的指导 意义。说 明 书 1/7 页 3 CN 114970294 B 3

.PDF文档 专利 基于神威架构的三维应变仿真PCG并行优化方法及系统

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于神威架构的三维应变仿真PCG并行优化方法及系统 第 1 页 专利 基于神威架构的三维应变仿真PCG并行优化方法及系统 第 2 页 专利 基于神威架构的三维应变仿真PCG并行优化方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:50:21上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。