说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210551564.9 (22)申请日 2022.05.18 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 周青宇 李映辉  (74)专利代理 机构 北京励诚知识产权代理有限 公司 11647 专利代理师 熊金凤 (51)Int.Cl. G06F 40/232(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) G06F 40/237(2020.01) G06F 40/284(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 语言模型的优化方法、 装置以及电子设备 (57)摘要 本申请实施例提供了一种语言模型的优化 方法、 装置以及电子设备, 本申请实施例涉及模 型的优化技术领域中的语言模型的优化技术领 域, 本申请实施例通过先校验预训练语 言模型针 对待检测错别字的检测与纠正的能力是否足够, 并在该预训练语言模型针对该待检测错别字的 检测与纠正的能力不足的情况下, 利用该待检测 错别字作为该预训练语言模型的优化样本对该 预训练语言模 型进行优化, 能够赋能该预训练语 言模型“吃一堑, 长一智 ”的能力, 进而提升该预 训练语言模型针对错别字的检测性能和纠正性 能。 权利要求书3页 说明书21页 附图5页 CN 115114904 A 2022.09.27 CN 115114904 A 1.一种语言模型的优化方法, 其特 征在于, 包括: 获取待检测语句中的待检测错别字、 所述待检测错别字的上下文、 以及所述待检测错 别字对应的目标 标准字; 基于所述待检测错别 字的上下文, 利用预训练语言模型对所述待检测错别字对应的标 准字进行预测, 以获取所述待检测错别字的预测结果; 其中, 所述预测结果包括M个预测标 准字中的每一个预测标准字作为所述待检测错别字对应的标准字的概率; 所述M个预测标 准字包括所述目标 标准字, M为 正整数; 基于所述M个预测标准字 中的每一个预测标准字作为所述待检测错别 字对应的标准字 的概率和所述目标 标准字, 确定是否对所述预测结果进行错 误纠正; 若确定对所述预测结果进行错误纠 正, 则获取所述M个预测标准字中的且作为所述待 检测错别字的标准字的概 率排在前K位的K个预测标准字; K为 正整数; 基于所述目标标准字作为所述待检测错别 字对应的标准字的概率和所述K个预测标准 字中的每一个预测标准字作为述待检测错别字对应的标准字的概率, 计算所述预训练语言 模型的概 率损失; 基于所述 概率损失, 对所述预训练语言模型进行优化。 2.根据权利要求1所述的方法, 其特征在于, 所述基于所述M个预测标准字中的每一个 预测标准字作为所述待检测错别字对应的标准字的概率和所述目标标准字, 确定是否对所 述预测结果进行错 误纠正, 包括: 通过对比所述M个预测标准字 中的且作为所述待检测错别字对应的标准字的概率最高 的预测标准字和所述目标 标准字, 确定是否对所述预测结果进行错 误纠正。 3.根据权利要求2所述的方法, 其特征在于, 所述通过对比所述M个预测标准字中的且 作为所述待检测错别字对应的标准字的概率最高的预测标准字和所述目标标准字, 确定是 否对所述预测结果进行错 误纠正, 包括: 若所述M个预测标准字 中的且作为所述待检测错别字对应的标准字的概率最高的预测 标准字和所述目标 标准字不相同, 则确定对所述预测结果进行错 误纠正; 若所述M个预测标准字 中的且作为所述待检测错别字对应的标准字的概率最高的预测 标准字和所述目标 标准字相同, 则确定不对所述预测结果进行错 误纠正。 4.根据权利要求1所述的方法, 其特征在于, 所述基于所述目标标准字作为所述待检测 错别字对应的标准字的概率和基于所述K个预测标准字中的每一个预测标准字作为述待检 测错别字对应的标准字的概 率, 计算所述预训练语言模型的概 率损失, 包括: 基于所述K个预测标准字是否包括所述目标标准字、 所述目标标准字作为所述待检测 错别字对应的标准字的概率、 以及所述K个预测标准字中的每一个预测标准字作为述待检 测错别字对应的标准字的概 率, 计算所述 概率损失。 5.根据权利要求4所述的方法, 其特征在于, 所述基于所述K个预测标准字是否包括所 述目标标准字、 所述目标标准字作为所述待检测错别字对应的标准字的概率、 以及所述K个 预测标准字中的每一个预测标准字作为述待检测错别字对应的标准字的概率, 计算所述概 率损失, 包括: 若所述K个预测标准字不包括所述目标标准字, 则计算所述目标标准字预测作为所述 待检测错别字对应的标准字的概率, 与所述K个预测标准字中的每一个预测标准字作为所权 利 要 求 书 1/3 页 2 CN 115114904 A 2述待检测错别字对应的标准字的概 率的差值, 以得到K个差值; 将所述K个差值的平均值的负值, 确定为所述待检测错别字的损失; 将所述待检测语句中的每一个所述待检测错别字的损失的均值, 确定为所述概率损 失。 6.根据权利要求4所述的方法, 其特征在于, 所述基于所述K个预测标准字是否包括所 述目标标准字、 所述目标标准字作为所述待检测错别字对应的标准字的概率、 以及所述K个 预测标准字中的每一个预测标准字作为述待检测错别字对应的标准字的概率, 计算所述概 率损失, 包括: 若所述K个预测标准字包括所述目标标准字, 则计算所述目标标准字预测作为所述待 检测错别字对应的标准字的概率, 与所述K个预测标准字中除所述 目标标准字之外的每一 个预测标准字作为所述待检测错别字对应的标准字的概 率的差值, 以得到K ‑1个差值; 将所述K‑1个差值的平均值的负值, 确定为所述待检测错别字的损失; 将所述待检测语句中的每一个所述待检测错别字的损失的均值, 确定为所述概率损 失。 7.根据权利要求1所述的方法, 其特征在于, 所述基于所述概率损 失, 对所述预训练语 言模型进行优化, 包括: 计算用于表征 所述预测结果和所述目标 标准词之间的差异的分布损失; 基于所述 概率损失和所述分布损失, 对所述预训练语言模型进行优化。 8.根据权利要求7所述的方法, 其特征在于, 所述基于所述概率损 失和所述分布损 失, 对所述预训练语言模型进行优化, 包括: 对所述概率损失和所述分布损失进行加权平均, 以得到最终目标损失; 基于所述目标损失对所述预训练语言模型进行优化。 9.根据权利要求1至8中任一项所述的方法, 其特征在于, 所述待检测语句为适用于所 述预训练语言模型的场景和适用于所述预训练语言模型的任务的语句。 10.根据权利要求1至8中任一项所述的方法, 其特 征在于, 所述方法还 包括: 若确定不对所述预测结果进行错误纠 正, 则将所述M个预测标准字中的且作为所述待 检测错别字对应的标准字的概率最高的预测标准字确定为所述待检测 错别字对应的标准 字, 或利用所述M个预测标准字中的且作为所述待检测错别字对应的标准字的概率最高的 预测标准字替换 所述待检测语句中的待检测错别字 。 11.根据权利要求1至8中任一项所述的方法, 其特征在于, 所述基于所述概率损 失, 对 所述预训练语言模型进行优化, 包括: 利用梯度下降的方式, 调整所述预测结果, 并重新计算所述概率损失, 直至所述概率损 失的计算次数满足设定的次数阈值或所述概率损失小于或等于 设定的函数值阈值, 得到优 化后的所述预训练语言模型。 12.一种语言模型的优化装置, 其特 征在于, 包括: 第一获取单元, 用于获取待检测语句中的待检测错别字、 所述待检测错别字的上下文、 以及所述待检测错别字对应的目标 标准字; 预测单元, 用于基于所述待检测错别字的上下文, 利用预训练语言模型对所述待检测 错别字对应的标准字进 行预测, 以获取所述待检测错别字的预测结果; 其中, 所述预测结果权 利 要 求 书 2/3 页 3 CN 115114904 A 3

.PDF文档 专利 语言模型的优化方法、装置以及电子设备

文档预览
中文文档 30 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 语言模型的优化方法、装置以及电子设备 第 1 页 专利 语言模型的优化方法、装置以及电子设备 第 2 页 专利 语言模型的优化方法、装置以及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:14:58上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。