说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211079412.X (22)申请日 2022.09.05 (71)申请人 之江实验室 地址 310023 浙江省杭州市余杭区文一西 路1818号人工智能小镇10号楼 (72)发明人 梅飞 孔丽娟 朱春节 秦亦  (74)专利代理 机构 杭州求是专利事务所有限公 司 33200 专利代理师 贾玉霞 (51)Int.Cl. G06N 20/00(2019.01) G06F 3/06(2006.01) (54)发明名称 一种适用于深度学习训练的IO加速系统及 数据存储方法 (57)摘要 本发明公开一种适用于深度学习训练的IO 加速系统及数据存储 方法, 该系统和方法在训练 任务开始前, 制备与轮次训练对应的副本; 副本 以对应轮次训练的随机序列为顺序、 依据存储设 备的特性存在存储设备中, 使得按照该随机序列 读取所述副本数据时, 符合存储设备的顺序访问 特性; 每个轮次训练均从对应的副本中读取数 据。 本发明的方法将训练过程中对存储设备的随 机IO转换为顺序IO, 能够充分利用硬盘等顺序存 储设备的性能。 权利要求书2页 说明书5页 附图2页 CN 115470931 A 2022.12.13 CN 115470931 A 1.一种适用于深度 学习训练的IO加速系统, 其特征在于, 该系统包括: 随机序列生成模 块、 副本制备模块、 训练框架、 存 储系统; 所述随机序列生成模块根据所述副本制备模块和训练框架传递的轮次序号和样本数 量, 生成随机序列; 所述副本制备模块根据用户输入的副本数量和原始数据集的路径, 遍历原始数据集, 得到原始数据集的样本序号和样本数量, 然后 将轮次序号和样本数量传递给所述随机序列 生成模块; 接收所述随机序列生成模块生成的随机序列, 并按照随机序列制备副本, 根据原 始数据集的路径和轮次序号, 生成副本路径; 副本制备的过程中, 根据用户输入的簇包含的 样本数量, 将随机序列分为多个簇, 向所述存 储系统发送存 储请求; 所述训练框架在整个训练开始前, 根据原始数据集得到样本序号, 并生成路径映射表, 将样本序号映射到原始数据集路径, 同时读取原始数据集的样本的标签, 生 成类别映射表, 将样本序号映射到类别; 所述训练框架依据所述 随机序列进行轮次训练, 训练过程中需要 读取某个序号的样本时, 从路径映射表查看原始路径并结合轮次序号得到对应副本中的样 本路径, 并向所述存 储系统发送读取请求, 读取样本数据进行训练; 所述存储系统用于存储原始数据集, 以及所述副本制备模块制备的副本; 所述存储系 统包括空间管理模块, 用于为每 个副本的簇在一个 硬盘中分配连续的存 储空间。 2.根据权利要求1所述的适用于深度学习训练的IO加速系统, 其特征在于, 当所述存储 系统包含多个硬盘时, 所述空间管理模块将每 个副本连续的簇分散存 储在多个 硬盘中。 3.根据权利要求1或2所述的适用于深度学习训练的IO加速系统, 其特征在于, 所述副 本数量由用户依据存储系统可用空间设定, 能够进行部分删除或增加; 所述副本制备模块 实现删除和增加功能; 在 进行删除或增加时, 所述副本依据用户输入的原始数据集、 以及制 备副本时生成副本路径的方法扫描副本路径并对其以轮次序号进行编号; 删除副本时, 依 据用户输入的删除数量 从最大轮次编号的副本开始往前删除, 直到删除了指定数量的副本 或已删除所有副本; 增加 副本时, 依据用户输入的增加数量从最大轮次加1的编号开始制备 副本。 4.根据权利要求1所述的适用于深度学习训练的IO加速系统, 其特征在于, 所述簇包含 的样本数量依据硬 盘IO特征、 样本平均大小设定 。 5.根据权利要求3所述的适用于深度学习训练的IO加速系统, 其特征在于, 当训练框架 因当前轮次序号已经超过最大副本序号而发现副本路径不存在时, 将直接从所述原始数据 集读取样本数据。 6.一种适用于深度 学习训练的数据存储方法, 该方法基于权利要求1~5 中任意一项的 IO加速系统来实现, 其特 征在于, 包括: 所述副本制备模块根据用户输入的副本数量和原始数据集的路径, 遍历原始数据集, 得到原始数据集的样本序号和样本数量, 然后 将轮次序号和样本数量传递给所述随机序列 生成模块; 所述随机序列生成模块根据 所述副本制备模块传递的轮次序号和样本数量, 生成 随机 序列; 所述副本制备模块接收所述随机序列生成模块生成的随机序列, 并按照随机序列制备 副本; 制备的过程中, 根据用户输入的簇的单位, 将随机序列分为多个簇, 向所述存储系统权 利 要 求 书 1/2 页 2 CN 115470931 A 2发送存储请求; 所述存储系统接收副本制备模块的存储请求, 由所述空间管理模块为每个副本的簇在 一个硬盘中分配连续的存 储空间; 所述训练框架在整个训练开始前, 根据原始数据集得到样本序号, 并生成路径映射表, 将样本序号映射到原始数据集路径, 同时读取原始数据集的样本的标签, 生 成类别映射表, 将样本序号映射到类别; 所述训练框架依据所述随机序列进行轮次训练, 训练过程中, 将样本路径修改为该轮 次对应的副本中的样本路径, 并向所述存 储系统发送读取请求, 读取样本数据进行训练。 7.根据权利要求6所述的适用于深度 学习训练 的数据存储方法, 其特征在于, 所述副本 路径是在原始数据集的相对路径的一级目录后增加轮次序号, 生成副本的相对路径的一级 目录, 所述副本的相对一级目录下 的子目录与原始数据集保持一致; 所述副本与原始数据 集存放在同一个父目录 。权 利 要 求 书 2/2 页 3 CN 115470931 A 3

.PDF文档 专利 一种适用于深度学习训练的IO加速系统及数据存储方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种适用于深度学习训练的IO加速系统及数据存储方法 第 1 页 专利 一种适用于深度学习训练的IO加速系统及数据存储方法 第 2 页 专利 一种适用于深度学习训练的IO加速系统及数据存储方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:03:48上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。