(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210758569.9
(22)申请日 2022.06.30
(71)申请人 北京航空航天大 学
地址 100191 北京市海淀区学院路37号
(72)发明人 吴俊杰 左源 齐旺 张志豪
李丰志 任鹏飞
(74)专利代理 机构 北京远大卓悦知识产权代理
有限公司 1 1369
专利代理师 俞牡丹
(51)Int.Cl.
G06F 40/30(2020.01)
G06N 20/00(2019.01)
(54)发明名称
基于记忆力机制的预训练语言模型参数微
调方法和装置
(57)摘要
本发明公开了基于记忆力机制的预训练语
言模型参数微调方法, 包括: 构建微调预训练语
言模型, 其包括, 获取初 始BERT模型; 分别将记忆
力机制模块引入到所述初始BERT模型的全连接
前馈网络模块和多头注意机制模块中, 获得微调
BERT模型, 记忆力机制模块包含参数M、 KP、 VP; 获
取任务训练数据, 将其划分为训练集和验证集,
采用所述训练数据对所述微调BERT模型进行训
练, 训练时, 固定所述微调BERT模型中其余参数,
只对参数M、 KP、 VP进行迭代更新。 本发明的方法
极大地降低了BERT模型中参数学习的规模, 提升
了BERT模型对下游任务的迁移学习能力。
权利要求书2页 说明书8页 附图6页
CN 115146651 A
2022.10.04
CN 115146651 A
1.基于记 忆力机制的预训练语言模型参数微调方法, 其特 征在于, 包括:
构建微调预训练语言模型, 其包括, 获取初始BERT模型; 分别将记忆力机制模块引入到
所述初始BERT模型的全连接前馈网络模块和多头注意机制模块中, 获得微调BERT模型, 其
中, 记忆力机制 模块中包含参数M、 KP、 VP,
由N个记忆槽组成, 每个记忆槽为dm维
度的向量, KP、 VP为l个d维度的表征, l 为虚拟to ken的长度,
获取任务训练数据, 将其划分为训练集和验证集, 采用所述训练数据对所述微调BERT
模型进行训练, 训练时, 固定所述微调BERT模型中除M、 KP、 VP外的全部参数, 在训练集上对参
数M、 KP、 VP进行迭代更新, 且当验 证集上当前轮次的负对数似然损失函数值相较于训练过程
中的最小负对数似然损失函数值, 上升超过5%时, 停止训练。
2.如权利要求1所述的基于记忆力 机制的预训练语言模型参数微调方法, 其特征在于,
所述将记 忆力机制模块引入所述初始BERT模型的全连接前馈网络模块中, 包括:
获取Transformers模块中的n个d维度的隐藏层状态H,
利用参数矩阵
对H进行线性变换, 得到QH, QH=HWquery;
利用参数矩阵
和
对M进行线性变化得到N个dm维度的键值对
KM=MWkey,VM=MWvalue;
计算QH,KM,VM的多头注意力, 并通过线性变化矩阵
进行线性变化得到ΔH,
根据公式H ←aH+bΔH, 更新隐藏层状态H, 其中, a和b是一组超参数系数。
3.如权利要求1所述的基于记忆力 机制的预训练语言模型参数微调方法, 其特征在于,
所述将记 忆力机制模块引入到初始BERT模型的多头注意机制模块中, 包括:
将KP、 VP拼接到多头注意机制 模块的键值对K和V 中作为新的键值对, head=Attention
(qWQ,Concat(Kp,CWK),Concat(Vp,CWV)), 其中,
为一个d维度的查询向量,
表
示m个d维度的上 下文向量,
是三个参数矩阵。
4.基于记 忆力机制的预训练语言模型参数微调装置, 其特 征在于, 包括:
微调预训练语言模型构 建单元, 其用于构建微调预训练语言模型, 包括, 获取初始BERT
模型; 分别将记忆力机制模块引入到所述初始BERT模型的全连接前馈网络模块和多头注 意
机制模块中, 获得微调BERT模型, 其中, 记忆力机制模块中包含参数M、 KP、 VP,
由N
个记忆槽组成, 每个记忆槽为dm维度的向量, KP、 VP为l个d维度的表征, l为虚拟token的长
度,
参数微调单元, 其用于获取任务训练数据, 将其划分为训练集和验证集, 采用所述训练
数据对所述微调BERT模型进行训练, 训练时, 固定所述微调BERT模型中除M、 KP、 VP外的全部
参数, 在训练集上对参数M、 KP、 VP进行迭代更新, 且当验证集上当前轮次的负对数似然损失
函数值相较于训练过程中的最小负对数似然损失函数值, 上升超过5%时, 停止训练。
5.如权利要求4所述的基于记忆力 机制的预训练语言模型参数微调装置, 其特征在于,权 利 要 求 书 1/2 页
2
CN 115146651 A
2所述将记 忆力机制模块引入所述初始BERT模型的全连接前馈网络模块中, 包括:
获取Transformers模块中的n个d维度的隐藏层状态H,
利用参数矩阵
对H进行线性变换, 得到QH, QH=HWquery;
利用参数矩阵
和
对M进行线性变化得到N个dm维度的键值对
KM=MWkey,VM=MWvalue;
计算QH,KM,VM的多头注意力, 并通过线性变化矩阵
进行线性变化得到ΔH,
根据公式H ←aH+bΔH, 更新隐藏层状态H, 其中, a和b是一组超参数系数。
6.如权利要求4所述的基于记忆力 机制的预训练语言模型参数微调装置, 其特征在于,
所述将记 忆力机制模块引入到初始BERT模型的多头注意机制模块中, 包括:
将KP、 VP拼接到多头注意机制 模块的键值对K和V 中作为新的键值对, head=Attention
(qWQ,Concat(Kp,CWK),Concat(Vp,CWV)), 其中,
为一个d维度的查询向量,
表
示m个d维度的上 下文向量,
是三个参数矩阵。
7.电子设备, 其特征在于, 包括: 至少一个处理器, 以及与所述至少一个处理器通信连
接的存储器, 其中, 所述存储器存储有 可被所述至少一个处理器执行的指 令, 所述指 令被所
述至少一个处理器执行, 以使所述至少一个处理器执行权利要求1 ‑3中任一项所述的基于
记忆力机制的预训练语言模型参数微调方法。
8.存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器执行时, 实现权利
要求1‑3中任一项所述的基于记 忆力机制的预训练语言模型参数微调方法。权 利 要 求 书 2/2 页
3
CN 115146651 A
3
专利 基于记忆力机制的预训练语言模型参数微调方法和装置
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:12:14上传分享