说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210552543.9 (22)申请日 2022.05.20 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦二层 (72)发明人 尚骏远 王硕寰 丁思宇 赵晏彬  庞超 孙宇 田浩 吴华 王海峰  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 罗岚 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/08(2006.01) G06V 10/774(2022.01) (54)发明名称 语言模型的预训练方法、 装置、 设备、 存储介 质 (57)摘要 本公开公开了一种语 言模型的预训练方法、 语言模型的预训练装置、 电子设备和可读存储介 质, 涉及人工智能领域, 特别涉及深度学习领域。 该方法包括: 构建预训练语言数据集, 其中, 所述 预训练语言数据集包括无监督语言数据和有监 督语言数据; 根据所述预训练语言数据集生成层 次化的多模板多任务语言数据集; 根据所述层次 化的多模板多任务语言数据集对语言模型进行 预训练。 本公开实施例可以构建了一个多模板多 任务语言数据集, 将任务统一模板化, 使得模型 可以同时建模多任务数据。 本公开实施例还可以 提升模型多任务学习的鲁棒性, 通过学习无监督 数据中通用的知识, 可以避免知识遗 忘。 权利要求书3页 说明书8页 附图6页 CN 114970522 A 2022.08.30 CN 114970522 A 1.一种语言模型的预训练方法, 包括: 构建预训练语言数据集, 其中, 所述预训练语言数据集包括无监督语言数据和有监督 语言数据; 根据所述预训练语言数据集 生成层次化的多模板多任务语言数据集; 根据所述层次化的多模板多任务语言数据集对语言模型进行 预训练。 2.如权利要求1所述的方法, 其中, 所述有监督语言数据包括多任务语言数据集, 且所 述根据所述预训练语言数据集 生成层次化的多模板多任务语言数据集, 包括: 为所述多任务语言数据集之中每个任务语言数据集设置对应的任务模板, 以及每个任 务模板对应的至少一个任务子模板; 根据每个所述任务语言数据集对应的至少一个任务子模板将所述每个任务语言数据 集分成至少一个任务大类, 以生成所述层次化的多模板多任务语言数据集。 3.如权利要求2所述的方法, 其中, 所述根据 所述层次化的多模板多任务语言数据集对 语言模型进行 预训练, 包括: 从所述语言模型之中获取样本文本; 根据所述样本文本所属的任务大类, 获取所述样本文本对应的任务模板和任务子模 板; 根据所述样本文本对应的任务模板和任务子模板生成连续模板; 将所述样本文本和所述连续模板 输入所述语言模型, 以对所述语言模型进行 预训练。 4.如权利要求3所述的方法, 其中, 还 包括: 将所述连续模板拼接在所述样本文本之前。 5.如权利要求1 ‑4任一项所述的方法, 其中, 通过所述无监督语言数据和有监督语言数 据对所述语言模型进行 联合预训练。 6.如权利要求1所述的方法, 其中, 所述语言模型通过多粒度的无监督语言数据训练生 成。 7.如权利要求6所述的方法, 其中, 所述语言模型通过以下步骤生成: 从所述无监 督语言数据之中提取第一至第四粒度的样本语言数据; 分别根据 所述第一至第四粒度的样本语言数据对初始模型进行训练, 以生成所述语言 模型。 8.如权利要求7所述的方法, 其中, 所述第一至第四粒度为词粒度、 句子粒度、 段粒度和 篇章粒度。 9.如权利要求6所述的方法, 其中, 所述训练为双向训练。 10.如权利要求1所述的方法, 其中, 对所述语言模型进行 预训练的目标函数为: 其中 , x为总长度为n的样本文本 , y为总长度为m的有监督数据集 , 其中 , 的 损 失 值 在 所 述 无 监 督 通 用 数 据 上 进 行 优 化 ,所 述 的损失值在所述有监 督数据上优化。 11.一种语言模型的预训练装置, 包括:权 利 要 求 书 1/3 页 2 CN 114970522 A 2构建模块, 用于构建预训练语言数据集, 其中, 所述预训练语言数据集包括无监督语言 数据和有监 督语言数据; 生成模块, 用于根据所述预训练语言数据集 生成层次化的多模板多任务语言数据集; 预训练模块, 用于根据所述层次化的多模板多任务语言数据集对语言模型进行预训 练。 12.如权利要求11所述的装置, 其中, 所述有监督语言数据包括多任务语言数据集, 且 所述生成模块, 包括: 模板 设置子模块, 用于为所述多任务语言数据集之中每个任务语言数 据集设置对应的任务模板, 以及每个任务模板对应的至少一个任务子模板; 第一生成子模 块, 根据每个所述任务语言数据集对应的至少一个任务子模板将所述每个任务语言数据集 分成至少一个任务大类, 以生成所述层次化的多模板多任务语言数据集。 13.如权利要求12所述的装置, 其中, 所述预训练模块, 包括: 样本获取子模块, 用于从所述语言模型之中获取样本文本; 模板获取子模块, 用于根据所述样本文本所属的任务大类, 获取所述样本文本对应的 任务模板和任务子模板; 连续模板生成子模块, 用于根据所述样本文本对应的任务模板和任务子模板生成连续 模板; 第一预训练子模块, 用于将所述样本文本和所述连续模板输入所述语言模型, 以对所 述语言模型进行 预训练。 14.如权利要求13所述的装置, 其中, 所述预训练模块, 还 包括: 拼接子模块, 用于将所述连续模板拼接在所述样本文本之前。 15.如权利要求1 1‑14所述的装置, 其中, 所述预训练模块, 还 包括: 第二预训练子模块, 用于通过所述无监督语言数据和有监督语言数据对所述语言模型 进行联合预训练。 16.如权利要求1 1所述的装置, 其中, 所述 生成模块, 还 包括: 第二生成子模块, 用于所述语言模型通过多粒度的无监 督语言数据训练生成。 17.如权利要求15所述的方法, 其中, 所述 生成模块, 还 包括: 提取子模块, 用于从所述无监 督语言数据之中提取第一至第四粒度的样本语言数据; 第三生成子模块, 用于分别根据所述第 一至第四粒度的样本语言数据对初始模型进行 训练, 以生成所述语言模型。 18.如权利要求17所述的方法, 其中, 所述第一至第四粒度为词粒度、 句子粒度、 段粒度 和篇章粒度。 19.如权利要求16所述的方法, 其中, 所述训练为双向训练。 20.如权利要求1 1所述的装置, 其中, 对所述语言模型进行 预训练的目标函数为: 其中 , x为总长度为n的样本文本 , y为总长度为m的有监督数据集 , 其中 , 的 损 失 值 在 所 述 无 监 督 通 用 数 据 上 进 行 优 化 ,所 述 的损失值在所述有监 督数据上优化。 21.一种电子设备, 包括:权 利 要 求 书 2/3 页 3 CN 114970522 A 3

.PDF文档 专利 语言模型的预训练方法、装置、设备、存储介质

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 语言模型的预训练方法、装置、设备、存储介质 第 1 页 专利 语言模型的预训练方法、装置、设备、存储介质 第 2 页 专利 语言模型的预训练方法、装置、设备、存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:15:00上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。