说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111628710.5 (22)申请日 2021.12.28 (71)申请人 南京大学 地址 210023 江苏省南京市栖霞区仙林大 道163号 (72)发明人 王中风 邵海阔 鲁金铭 魏敬和  (74)专利代理 机构 北京弘权知识产权代理有限 公司 11363 代理人 逯长明 许伟群 (51)Int.Cl. G06N 3/08(2006.01) G06N 3/04(2006.01) G06K 9/62(2022.01) G06F 16/332(2019.01) G06F 40/295(2020.01)G06F 16/35(2019.01) (54)发明名称 一种模型训练方法 (57)摘要 本申请提供一种模型训练方法, 包括定义一 个新的量化线性层; 将量化线性层的多维输入张 量中全部元素量化为PINT格式, 对量化线 性层的 待计算张量中全部 元素量化为PINT数据格式, 将 量化后的多维输入张量和待计算张量进行矩 阵 乘计算得到定点结果; 将定点结果反量化为浮点 数并传播到后续网络层; 将模型中原有的线性层 替换为量化线 性层, 以及基于浮点数和PINT数据 格式对模型进行训练。 本申请开发了一种基于 PINT数据格式的量化线性层, 将低比特、 高表示 能力的PINT数据格式应用到模型训练, 用量化线 性层替换模 型中使用到的线性层, 使得在训练出 的模型准确度变化很小的情况下有效的降低了 数据计算和存 储等方面的需求。 权利要求书1页 说明书11页 附图6页 CN 114418088 A 2022.04.29 CN 114418088 A 1.一种模型训练方法, 其特 征在于, 包括: 定义一个新的量 化线性层; 使用预设量化函数将所述量化线性层的多维输入张量中全部元素量化为PINT数据格 式, 所述多维输入张量在前向传播 阶段是指多维特征值张量; 所述多维特征值张量是 由相 邻的网络层前向传播过来的; 所述多维输入张量在反向传播阶段和权重梯度计算阶段是指 多维误差张量, 所述多维误差张量是由相邻的网络层反向传播过来的; 所述PINT数据格式 是一种分段整数的数据格式; 使用所述预设量化函数对所述量化线性层的待计算张量中全部元素量化为PINT数据 格式, 所述待计算张量在所述前向传播阶段和所述反向传播阶段是指所述量化线性层的权 重矩阵; 所述待计算张量在所述权重梯度计算阶段是指在所述前向传播阶段计算得到的所 述特征值张量; 将量化后的所述多维输入张量和所述待计算张量进行矩阵乘计算, 得到 定点结果; 将所述定点结果反量 化为浮点数, 以及, 将所述 浮点数传播到后续网络层; 将所述模型中原有的线性层替换为所述量化线性层, 以及基于所述浮点数和所述PINT 数据格式对 模型进行训练。 2.根据权利要求1所述的模型训练方法, 其特征在于, 所述预设量化函数为 quantizati on, 所述预设量 化函数是在Pytho n编程语言中定义的。 3.根据权利要求1所述的模型训练方法, 其特征在于, 所述量化线性层的功能与所述模 型中原有的线性层功能相同。 4.根据权利要求1所述的模型训练方法, 其特征在于, 在搭建所述模型时, 所述量化线 性层是由所述PINT 数据格式表示的, 所述多维误差张量、 所述权重矩阵、 所述浮点数均是由 32位浮点数表示的, 以使所述模型 形成混合精度的训练方法。 5.根据权利要求1所述的模型训练方法, 其特征在于, 所述PINT数据格 式包括数据位宽 和分隔点两个参数, 结合所述数据位宽和所述分隔点将PINT数值分为三部分编码空间, 每 个所述编码空间对应一个缩放因子 。 6.根据权利要求5所述的模型训练方法, 其特征在于, 所述预设量化函数是通过如下步 骤实现量 化过程的: 设置整体缩放因子; 计算量化过程中所述 三部分编码空间对应的各个缩放因子; 根据所述整体缩放因子和各个所述缩放因子确定量化后的数值所属的编码空间, 以及 得到所述数值对应的PI NT数据格式。 7.根据权利要求6所述的模型训练方法, 其特征在于, 所述整体缩放因子及各个所述缩 放因子是通过 预设公式计算得 出的。 8.根据权利要求1所述的模型训练方法, 其特征在于, 所述网络层的计算包括所述前向 传播阶段、 所述反向传播阶段和所述权 重梯度计算阶段。 9.根据权利要求1所述的模型训练方法, 其特征在于, 所述量化线性层是在Pytorch深 度学习框架中定义的。 10.根据权利要求1所述的模型训练方法, 其特征在于, 所述网络层包括线性层、 嵌入 层、 注意力机制、 残差连接、 激活函数和归一 化。权 利 要 求 书 1/1 页 2 CN 114418088 A 2一种模型训练方 法 技术领域 [0001]本申请涉及自然语言处 理技术领域, 尤其涉及一种模型训练方法。 背景技术 [0002]近些年来, 基于Transformer网络的BERT等模型在自然语言处理等领域表现出色。 Transformer是Google的团队在2017年提出的一种应用于NLP(Natural  Language   Processing, 自然语言处理)的经 典模型, Tran sformer模型使用了Self ‑Attention(自注意 力)机制, 不采用RNN(Recurrent  Neural Network, 循环神经网络)的顺序结构, 使得模型可 以并行化训练, 而且能够拥有样本的全局信息。 现在比较流行的如BERT(Bidirectional   Encoder Representati ons from Transformers)也是基于Transformer实现的模型。 [0003]以模型中的BERT模型为例, BERT的全称为Bidirectional  Encoder   Representations  from Transformers, 是一个预训练的语言表征模型。 BERT模型使用 Transformer中的编码器作为主要结构, 它强调了不再像以往一样采用传 统的单向语言模 型或者把两个单向语言模型进 行浅层拼接的方法进行预训练, 而 是采用一种高效出预训练 (Pre‑training)加微调(Fi ne‑Tuning)的模型训练方案, 以致能生成深度的双向语言表征。 [0004]出于在线学习和数据隐私方面的考虑, 在资源有限的边缘计算平台训练这类语言 模型具有一定的需求。 但是这类模型通常具有庞大 的网络结构和大量的参数, 因此训练过 程需要巨大的计算和存 储资源。 发明内容 [0005]本申请提供一种模型训练方法, 以解决模型训练过程中需要巨大的计算和存储资 源的问题。 [0006]一种模型训练方法, 包括: [0007]定义一个新的量 化线性层; [0008]使用预设量化函数将所述量化线性层的多维输入张量中全部元素量化为PINT数 据格式, 所述多维输入张量在前向传播 阶段是指多维特征值张量; 所述多维特征值张量是 由相邻的网络层前向传播过来的; 所述多维输入张量在反向传播阶段和权重梯度计算阶段 是指多维误差张量, 所述多维误差张量是由相邻的网络层反向传播过来的; 所述PINT数据 格式是一种分段整数的数据格式; [0009]使用所述预设量化函数对所述量化线性层的待计算张量中全部元素量化为PINT 数据格式, 所述待计算张量在所述前向传播阶段和所述反向传播阶段是指所述量化线性层 的权重矩阵; 所述待计算张量在所述权重梯度计算阶段是指在所述前向传播阶段计算得到 的所述特 征值张量; [0010]将量化后的所述多维输入张量和所述待计算张量进行矩阵乘计算, 得到定点结 果; [0011]将所述定点结果反量 化为浮点数, 以及, 将所述 浮点数传播到后续网络层;说 明 书 1/11 页 3 CN 114418088 A 3

.PDF文档 专利 一种模型训练方法

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种模型训练方法 第 1 页 专利 一种模型训练方法 第 2 页 专利 一种模型训练方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 00:18:52上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。