专利基于记忆力机制的预训练语言模型参数微调方法和装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210758569.9 (22)申请日 2022.06.30 (71)申请人北京航空航天大学地址 100191 北京市海淀区学院路37号 (72)发明人吴俊杰　左源　齐旺　张志豪　李丰志　任鹏飞　 (74)专利代理机构北京远大卓悦知识产权代理有限公司 1 1369 专利代理师俞牡丹 (51)Int.Cl. G06F 40/30(2020.01) G06N 20/00(2019.01) (54)发明名称基于记忆力机制的预训练语言模型参数微调方法和装置 (57)摘要本发明公开了基于记忆力机制的预训练语言模型参数微调方法，包括：构建微调预训练语言模型，其包括，获取初始BERT模型；分别将记忆力机制模块引入到所述初始BERT模型的全连接前馈网络模块和多头注意机制模块中，获得微调 BERT模型，记忆力机制模块包含参数M、 KP、 VP；获取任务训练数据，将其划分为训练集和验证集，采用所述训练数据对所述微调BERT模型进行训练，训练时，固定所述微调BERT模型中其余参数，只对参数M、 KP、 VP进行迭代更新。本发明的方法极大地降低了BERT模型中参数学习的规模，提升了BERT模型对下游任务的迁移学习能力。权利要求书2页说明书8页附图6页 CN 115146651 A 2022.10.04 CN 115146651 A 1.基于记忆力机制的预训练语言模型参数微调方法，其特征在于，包括：构建微调预训练语言模型，其包括，获取初始BERT模型；分别将记忆力机制模块引入到所述初始BERT模型的全连接前馈网络模块和多头注意机制模块中，获得微调BERT模型，其中，记忆力机制模块中包含参数M、 KP、 VP，由N个记忆槽组成，每个记忆槽为dm维度的向量， KP、 VP为l个d维度的表征， l 为虚拟to ken的长度，获取任务训练数据，将其划分为训练集和验证集，采用所述训练数据对所述微调BERT 模型进行训练，训练时，固定所述微调BERT模型中除M、 KP、 VP外的全部参数，在训练集上对参数M、 KP、 VP进行迭代更新，且当验证集上当前轮次的负对数似然损失函数值相较于训练过程中的最小负对数似然损失函数值，上升超过5％时，停止训练。 2.如权利要求1所述的基于记忆力机制的预训练语言模型参数微调方法，其特征在于，所述将记忆力机制模块引入所述初始BERT模型的全连接前馈网络模块中，包括：获取Transformers模块中的n个d维度的隐藏层状态H，利用参数矩阵对H进行线性变换，得到QH， QH＝HWquery；利用参数矩阵和对M进行线性变化得到N个dm维度的键值对 KM＝MWkey,VM＝MWvalue；计算QH,KM,VM的多头注意力，并通过线性变化矩阵进行线性变化得到ΔH，根据公式H ←aH+bΔH，更新隐藏层状态H，其中， a和b是一组超参数系数。 3.如权利要求1所述的基于记忆力机制的预训练语言模型参数微调方法，其特征在于，所述将记忆力机制模块引入到初始BERT模型的多头注意机制模块中，包括：将KP、 VP拼接到多头注意机制模块的键值对K和V 中作为新的键值对， head＝Attention (qWQ,Concat(Kp,CWK),Concat(Vp,CWV))，其中，为一个d维度的查询向量，表示m个d维度的上下文向量，是三个参数矩阵。 4.基于记忆力机制的预训练语言模型参数微调装置，其特征在于，包括：微调预训练语言模型构建单元，其用于构建微调预训练语言模型，包括，获取初始BERT 模型；分别将记忆力机制模块引入到所述初始BERT模型的全连接前馈网络模块和多头注意机制模块中，获得微调BERT模型，其中，记忆力机制模块中包含参数M、 KP、 VP，由N 个记忆槽组成，每个记忆槽为dm维度的向量， KP、 VP为l个d维度的表征， l为虚拟token的长度，参数微调单元，其用于获取任务训练数据，将其划分为训练集和验证集，采用所述训练数据对所述微调BERT模型进行训练，训练时，固定所述微调BERT模型中除M、 KP、 VP外的全部参数，在训练集上对参数M、 KP、 VP进行迭代更新，且当验证集上当前轮次的负对数似然损失函数值相较于训练过程中的最小负对数似然损失函数值，上升超过5％时，停止训练。 5.如权利要求4所述的基于记忆力机制的预训练语言模型参数微调装置，其特征在于，权　利　要　求　书 1/2 页 2 CN 115146651 A 2所述将记忆力机制模块引入所述初始BERT模型的全连接前馈网络模块中，包括：获取Transformers模块中的n个d维度的隐藏层状态H，利用参数矩阵对H进行线性变换，得到QH， QH＝HWquery；利用参数矩阵和对M进行线性变化得到N个dm维度的键值对 KM＝MWkey,VM＝MWvalue；计算QH,KM,VM的多头注意力，并通过线性变化矩阵进行线性变化得到ΔH，根据公式H ←aH+bΔH，更新隐藏层状态H，其中， a和b是一组超参数系数。 6.如权利要求4所述的基于记忆力机制的预训练语言模型参数微调装置，其特征在于，所述将记忆力机制模块引入到初始BERT模型的多头注意机制模块中，包括：将KP、 VP拼接到多头注意机制模块的键值对K和V 中作为新的键值对， head＝Attention (qWQ,Concat(Kp,CWK),Concat(Vp,CWV))，其中，为一个d维度的查询向量，表示m个d维度的上下文向量，是三个参数矩阵。 7.电子设备，其特征在于，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1 ‑3中任一项所述的基于记忆力机制的预训练语言模型参数微调方法。 8.存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时，实现权利要求1‑3中任一项所述的基于记忆力机制的预训练语言模型参数微调方法。权　利　要　求　书 2/2 页 3 CN 115146651 A 3

专利 基于记忆力机制的预训练语言模型参数微调方法和装置

专利基于记忆力机制的预训练语言模型参数微调方法和装置