说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210758569.9 (22)申请日 2022.06.30 (71)申请人 北京航空航天大 学 地址 100191 北京市海淀区学院路37号 (72)发明人 吴俊杰 左源 齐旺 张志豪  李丰志 任鹏飞  (74)专利代理 机构 北京远大卓悦知识产权代理 有限公司 1 1369 专利代理师 俞牡丹 (51)Int.Cl. G06F 40/30(2020.01) G06N 20/00(2019.01) (54)发明名称 基于记忆力机制的预训练语言模型参数微 调方法和装置 (57)摘要 本发明公开了基于记忆力机制的预训练语 言模型参数微调方法, 包括: 构建微调预训练语 言模型, 其包括, 获取初 始BERT模型; 分别将记忆 力机制模块引入到所述初始BERT模型的全连接 前馈网络模块和多头注意机制模块中, 获得微调 BERT模型, 记忆力机制模块包含参数M、 KP、 VP; 获 取任务训练数据, 将其划分为训练集和验证集, 采用所述训练数据对所述微调BERT模型进行训 练, 训练时, 固定所述微调BERT模型中其余参数, 只对参数M、 KP、 VP进行迭代更新。 本发明的方法 极大地降低了BERT模型中参数学习的规模, 提升 了BERT模型对下游任务的迁移学习能力。 权利要求书2页 说明书8页 附图6页 CN 115146651 A 2022.10.04 CN 115146651 A 1.基于记 忆力机制的预训练语言模型参数微调方法, 其特 征在于, 包括: 构建微调预训练语言模型, 其包括, 获取初始BERT模型; 分别将记忆力机制模块引入到 所述初始BERT模型的全连接前馈网络模块和多头注意机制模块中, 获得微调BERT模型, 其 中, 记忆力机制 模块中包含参数M、 KP、 VP, 由N个记忆槽组成, 每个记忆槽为dm维 度的向量, KP、 VP为l个d维度的表征, l 为虚拟to ken的长度, 获取任务训练数据, 将其划分为训练集和验证集, 采用所述训练数据对所述微调BERT 模型进行训练, 训练时, 固定所述微调BERT模型中除M、 KP、 VP外的全部参数, 在训练集上对参 数M、 KP、 VP进行迭代更新, 且当验 证集上当前轮次的负对数似然损失函数值相较于训练过程 中的最小负对数似然损失函数值, 上升超过5%时, 停止训练。 2.如权利要求1所述的基于记忆力 机制的预训练语言模型参数微调方法, 其特征在于, 所述将记 忆力机制模块引入所述初始BERT模型的全连接前馈网络模块中, 包括: 获取Transformers模块中的n个d维度的隐藏层状态H, 利用参数矩阵 对H进行线性变换, 得到QH, QH=HWquery; 利用参数矩阵 和 对M进行线性变化得到N个dm维度的键值对 KM=MWkey,VM=MWvalue; 计算QH,KM,VM的多头注意力, 并通过线性变化矩阵 进行线性变化得到ΔH, 根据公式H ←aH+bΔH, 更新隐藏层状态H, 其中, a和b是一组超参数系数。 3.如权利要求1所述的基于记忆力 机制的预训练语言模型参数微调方法, 其特征在于, 所述将记 忆力机制模块引入到初始BERT模型的多头注意机制模块中, 包括: 将KP、 VP拼接到多头注意机制 模块的键值对K和V 中作为新的键值对, head=Attention (qWQ,Concat(Kp,CWK),Concat(Vp,CWV)), 其中, 为一个d维度的查询向量, 表 示m个d维度的上 下文向量, 是三个参数矩阵。 4.基于记 忆力机制的预训练语言模型参数微调装置, 其特 征在于, 包括: 微调预训练语言模型构 建单元, 其用于构建微调预训练语言模型, 包括, 获取初始BERT 模型; 分别将记忆力机制模块引入到所述初始BERT模型的全连接前馈网络模块和多头注 意 机制模块中, 获得微调BERT模型, 其中, 记忆力机制模块中包含参数M、 KP、 VP, 由N 个记忆槽组成, 每个记忆槽为dm维度的向量, KP、 VP为l个d维度的表征, l为虚拟token的长 度, 参数微调单元, 其用于获取任务训练数据, 将其划分为训练集和验证集, 采用所述训练 数据对所述微调BERT模型进行训练, 训练时, 固定所述微调BERT模型中除M、 KP、 VP外的全部 参数, 在训练集上对参数M、 KP、 VP进行迭代更新, 且当验证集上当前轮次的负对数似然损失 函数值相较于训练过程中的最小负对数似然损失函数值, 上升超过5%时, 停止训练。 5.如权利要求4所述的基于记忆力 机制的预训练语言模型参数微调装置, 其特征在于,权 利 要 求 书 1/2 页 2 CN 115146651 A 2所述将记 忆力机制模块引入所述初始BERT模型的全连接前馈网络模块中, 包括: 获取Transformers模块中的n个d维度的隐藏层状态H, 利用参数矩阵 对H进行线性变换, 得到QH, QH=HWquery; 利用参数矩阵 和 对M进行线性变化得到N个dm维度的键值对 KM=MWkey,VM=MWvalue; 计算QH,KM,VM的多头注意力, 并通过线性变化矩阵 进行线性变化得到ΔH, 根据公式H ←aH+bΔH, 更新隐藏层状态H, 其中, a和b是一组超参数系数。 6.如权利要求4所述的基于记忆力 机制的预训练语言模型参数微调装置, 其特征在于, 所述将记 忆力机制模块引入到初始BERT模型的多头注意机制模块中, 包括: 将KP、 VP拼接到多头注意机制 模块的键值对K和V 中作为新的键值对, head=Attention (qWQ,Concat(Kp,CWK),Concat(Vp,CWV)), 其中, 为一个d维度的查询向量, 表 示m个d维度的上 下文向量, 是三个参数矩阵。 7.电子设备, 其特征在于, 包括: 至少一个处理器, 以及与所述至少一个处理器通信连 接的存储器, 其中, 所述存储器存储有 可被所述至少一个处理器执行的指 令, 所述指 令被所 述至少一个处理器执行, 以使所述至少一个处理器执行权利要求1 ‑3中任一项所述的基于 记忆力机制的预训练语言模型参数微调方法。 8.存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器执行时, 实现权利 要求1‑3中任一项所述的基于记 忆力机制的预训练语言模型参数微调方法。权 利 要 求 书 2/2 页 3 CN 115146651 A 3

.PDF文档 专利 基于记忆力机制的预训练语言模型参数微调方法和装置

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于记忆力机制的预训练语言模型参数微调方法和装置 第 1 页 专利 基于记忆力机制的预训练语言模型参数微调方法和装置 第 2 页 专利 基于记忆力机制的预训练语言模型参数微调方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:12:14上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。