专利语言模型的预训练方法、装置、设备、存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210552543.9 (22)申请日 2022.05.20 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦二层 (72)发明人尚骏远　王硕寰　丁思宇　赵晏彬　庞超　孙宇　田浩　吴华　王海峰　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 专利代理师罗岚 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/08(2006.01) G06V 10/774(2022.01) (54)发明名称语言模型的预训练方法、装置、设备、存储介质 (57)摘要本公开公开了一种语言模型的预训练方法、语言模型的预训练装置、电子设备和可读存储介质，涉及人工智能领域，特别涉及深度学习领域。该方法包括：构建预训练语言数据集，其中，所述预训练语言数据集包括无监督语言数据和有监督语言数据；根据所述预训练语言数据集生成层次化的多模板多任务语言数据集；根据所述层次化的多模板多任务语言数据集对语言模型进行预训练。本公开实施例可以构建了一个多模板多任务语言数据集，将任务统一模板化，使得模型可以同时建模多任务数据。本公开实施例还可以提升模型多任务学习的鲁棒性，通过学习无监督数据中通用的知识，可以避免知识遗忘。权利要求书3页说明书8页附图6页 CN 114970522 A 2022.08.30 CN 114970522 A 1.一种语言模型的预训练方法，包括：构建预训练语言数据集，其中，所述预训练语言数据集包括无监督语言数据和有监督语言数据；根据所述预训练语言数据集生成层次化的多模板多任务语言数据集；根据所述层次化的多模板多任务语言数据集对语言模型进行预训练。 2.如权利要求1所述的方法，其中，所述有监督语言数据包括多任务语言数据集，且所述根据所述预训练语言数据集生成层次化的多模板多任务语言数据集，包括：为所述多任务语言数据集之中每个任务语言数据集设置对应的任务模板，以及每个任务模板对应的至少一个任务子模板；根据每个所述任务语言数据集对应的至少一个任务子模板将所述每个任务语言数据集分成至少一个任务大类，以生成所述层次化的多模板多任务语言数据集。 3.如权利要求2所述的方法，其中，所述根据所述层次化的多模板多任务语言数据集对语言模型进行预训练，包括：从所述语言模型之中获取样本文本；根据所述样本文本所属的任务大类，获取所述样本文本对应的任务模板和任务子模板；根据所述样本文本对应的任务模板和任务子模板生成连续模板；将所述样本文本和所述连续模板输入所述语言模型，以对所述语言模型进行预训练。 4.如权利要求3所述的方法，其中，还包括：将所述连续模板拼接在所述样本文本之前。 5.如权利要求1 ‑4任一项所述的方法，其中，通过所述无监督语言数据和有监督语言数据对所述语言模型进行联合预训练。 6.如权利要求1所述的方法，其中，所述语言模型通过多粒度的无监督语言数据训练生成。 7.如权利要求6所述的方法，其中，所述语言模型通过以下步骤生成：从所述无监督语言数据之中提取第一至第四粒度的样本语言数据；分别根据所述第一至第四粒度的样本语言数据对初始模型进行训练，以生成所述语言模型。 8.如权利要求7所述的方法，其中，所述第一至第四粒度为词粒度、句子粒度、段粒度和篇章粒度。 9.如权利要求6所述的方法，其中，所述训练为双向训练。 10.如权利要求1所述的方法，其中，对所述语言模型进行预训练的目标函数为：其中， x为总长度为n的样本文本， y为总长度为m的有监督数据集，其中，的损失值在所述无监督通用数据上进行优化，所述的损失值在所述有监督数据上优化。 11.一种语言模型的预训练装置，包括：权　利　要　求　书 1/3 页 2 CN 114970522 A 2构建模块，用于构建预训练语言数据集，其中，所述预训练语言数据集包括无监督语言数据和有监督语言数据；生成模块，用于根据所述预训练语言数据集生成层次化的多模板多任务语言数据集；预训练模块，用于根据所述层次化的多模板多任务语言数据集对语言模型进行预训练。 12.如权利要求11所述的装置，其中，所述有监督语言数据包括多任务语言数据集，且所述生成模块，包括：模板设置子模块，用于为所述多任务语言数据集之中每个任务语言数据集设置对应的任务模板，以及每个任务模板对应的至少一个任务子模板；第一生成子模块，根据每个所述任务语言数据集对应的至少一个任务子模板将所述每个任务语言数据集分成至少一个任务大类，以生成所述层次化的多模板多任务语言数据集。 13.如权利要求12所述的装置，其中，所述预训练模块，包括：样本获取子模块，用于从所述语言模型之中获取样本文本；模板获取子模块，用于根据所述样本文本所属的任务大类，获取所述样本文本对应的任务模板和任务子模板；连续模板生成子模块，用于根据所述样本文本对应的任务模板和任务子模板生成连续模板；第一预训练子模块，用于将所述样本文本和所述连续模板输入所述语言模型，以对所述语言模型进行预训练。 14.如权利要求13所述的装置，其中，所述预训练模块，还包括：拼接子模块，用于将所述连续模板拼接在所述样本文本之前。 15.如权利要求1 1‑14所述的装置，其中，所述预训练模块，还包括：第二预训练子模块，用于通过所述无监督语言数据和有监督语言数据对所述语言模型进行联合预训练。 16.如权利要求1 1所述的装置，其中，所述生成模块，还包括：第二生成子模块，用于所述语言模型通过多粒度的无监督语言数据训练生成。 17.如权利要求15所述的方法，其中，所述生成模块，还包括：提取子模块，用于从所述无监督语言数据之中提取第一至第四粒度的样本语言数据；第三生成子模块，用于分别根据所述第一至第四粒度的样本语言数据对初始模型进行训练，以生成所述语言模型。 18.如权利要求17所述的方法，其中，所述第一至第四粒度为词粒度、句子粒度、段粒度和篇章粒度。 19.如权利要求16所述的方法，其中，所述训练为双向训练。 20.如权利要求1 1所述的装置，其中，对所述语言模型进行预训练的目标函数为：其中， x为总长度为n的样本文本， y为总长度为m的有监督数据集，其中，的损失值在所述无监督通用数据上进行优化，所述的损失值在所述有监督数据上优化。 21.一种电子设备，包括：权　利　要　求　书 2/3 页 3 CN 114970522 A 3

专利 语言模型的预训练方法、装置、设备、存储介质

专利语言模型的预训练方法、装置、设备、存储介质