专利语言模型的优化方法、装置以及电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210551564.9 (22)申请日 2022.05.18 (71)申请人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人周青宇　李映辉　 (74)专利代理机构北京励诚知识产权代理有限公司 11647 专利代理师熊金凤 (51)Int.Cl. G06F 40/232(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) G06F 40/237(2020.01) G06F 40/284(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称语言模型的优化方法、装置以及电子设备 (57)摘要本申请实施例提供了一种语言模型的优化方法、装置以及电子设备，本申请实施例涉及模型的优化技术领域中的语言模型的优化技术领域，本申请实施例通过先校验预训练语言模型针对待检测错别字的检测与纠正的能力是否足够，并在该预训练语言模型针对该待检测错别字的检测与纠正的能力不足的情况下，利用该待检测错别字作为该预训练语言模型的优化样本对该预训练语言模型进行优化，能够赋能该预训练语言模型“吃一堑，长一智 ”的能力，进而提升该预训练语言模型针对错别字的检测性能和纠正性能。权利要求书3页说明书21页附图5页 CN 115114904 A 2022.09.27 CN 115114904 A 1.一种语言模型的优化方法，其特征在于，包括：获取待检测语句中的待检测错别字、所述待检测错别字的上下文、以及所述待检测错别字对应的目标标准字；基于所述待检测错别字的上下文，利用预训练语言模型对所述待检测错别字对应的标准字进行预测，以获取所述待检测错别字的预测结果；其中，所述预测结果包括M个预测标准字中的每一个预测标准字作为所述待检测错别字对应的标准字的概率；所述M个预测标准字包括所述目标标准字， M为正整数；基于所述M个预测标准字中的每一个预测标准字作为所述待检测错别字对应的标准字的概率和所述目标标准字，确定是否对所述预测结果进行错误纠正；若确定对所述预测结果进行错误纠正，则获取所述M个预测标准字中的且作为所述待检测错别字的标准字的概率排在前K位的K个预测标准字； K为正整数；基于所述目标标准字作为所述待检测错别字对应的标准字的概率和所述K个预测标准字中的每一个预测标准字作为述待检测错别字对应的标准字的概率，计算所述预训练语言模型的概率损失；基于所述概率损失，对所述预训练语言模型进行优化。 2.根据权利要求1所述的方法，其特征在于，所述基于所述M个预测标准字中的每一个预测标准字作为所述待检测错别字对应的标准字的概率和所述目标标准字，确定是否对所述预测结果进行错误纠正，包括：通过对比所述M个预测标准字中的且作为所述待检测错别字对应的标准字的概率最高的预测标准字和所述目标标准字，确定是否对所述预测结果进行错误纠正。 3.根据权利要求2所述的方法，其特征在于，所述通过对比所述M个预测标准字中的且作为所述待检测错别字对应的标准字的概率最高的预测标准字和所述目标标准字，确定是否对所述预测结果进行错误纠正，包括：若所述M个预测标准字中的且作为所述待检测错别字对应的标准字的概率最高的预测标准字和所述目标标准字不相同，则确定对所述预测结果进行错误纠正；若所述M个预测标准字中的且作为所述待检测错别字对应的标准字的概率最高的预测标准字和所述目标标准字相同，则确定不对所述预测结果进行错误纠正。 4.根据权利要求1所述的方法，其特征在于，所述基于所述目标标准字作为所述待检测错别字对应的标准字的概率和基于所述K个预测标准字中的每一个预测标准字作为述待检测错别字对应的标准字的概率，计算所述预训练语言模型的概率损失，包括：基于所述K个预测标准字是否包括所述目标标准字、所述目标标准字作为所述待检测错别字对应的标准字的概率、以及所述K个预测标准字中的每一个预测标准字作为述待检测错别字对应的标准字的概率，计算所述概率损失。 5.根据权利要求4所述的方法，其特征在于，所述基于所述K个预测标准字是否包括所述目标标准字、所述目标标准字作为所述待检测错别字对应的标准字的概率、以及所述K个预测标准字中的每一个预测标准字作为述待检测错别字对应的标准字的概率，计算所述概率损失，包括：若所述K个预测标准字不包括所述目标标准字，则计算所述目标标准字预测作为所述待检测错别字对应的标准字的概率，与所述K个预测标准字中的每一个预测标准字作为所权　利　要　求　书 1/3 页 2 CN 115114904 A 2述待检测错别字对应的标准字的概率的差值，以得到K个差值；将所述K个差值的平均值的负值，确定为所述待检测错别字的损失；将所述待检测语句中的每一个所述待检测错别字的损失的均值，确定为所述概率损失。 6.根据权利要求4所述的方法，其特征在于，所述基于所述K个预测标准字是否包括所述目标标准字、所述目标标准字作为所述待检测错别字对应的标准字的概率、以及所述K个预测标准字中的每一个预测标准字作为述待检测错别字对应的标准字的概率，计算所述概率损失，包括：若所述K个预测标准字包括所述目标标准字，则计算所述目标标准字预测作为所述待检测错别字对应的标准字的概率，与所述K个预测标准字中除所述目标标准字之外的每一个预测标准字作为所述待检测错别字对应的标准字的概率的差值，以得到K ‑1个差值；将所述K‑1个差值的平均值的负值，确定为所述待检测错别字的损失；将所述待检测语句中的每一个所述待检测错别字的损失的均值，确定为所述概率损失。 7.根据权利要求1所述的方法，其特征在于，所述基于所述概率损失，对所述预训练语言模型进行优化，包括：计算用于表征所述预测结果和所述目标标准词之间的差异的分布损失；基于所述概率损失和所述分布损失，对所述预训练语言模型进行优化。 8.根据权利要求7所述的方法，其特征在于，所述基于所述概率损失和所述分布损失，对所述预训练语言模型进行优化，包括：对所述概率损失和所述分布损失进行加权平均，以得到最终目标损失；基于所述目标损失对所述预训练语言模型进行优化。 9.根据权利要求1至8中任一项所述的方法，其特征在于，所述待检测语句为适用于所述预训练语言模型的场景和适用于所述预训练语言模型的任务的语句。 10.根据权利要求1至8中任一项所述的方法，其特征在于，所述方法还包括：若确定不对所述预测结果进行错误纠正，则将所述M个预测标准字中的且作为所述待检测错别字对应的标准字的概率最高的预测标准字确定为所述待检测错别字对应的标准字，或利用所述M个预测标准字中的且作为所述待检测错别字对应的标准字的概率最高的预测标准字替换所述待检测语句中的待检测错别字。 11.根据权利要求1至8中任一项所述的方法，其特征在于，所述基于所述概率损失，对所述预训练语言模型进行优化，包括：利用梯度下降的方式，调整所述预测结果，并重新计算所述概率损失，直至所述概率损失的计算次数满足设定的次数阈值或所述概率损失小于或等于设定的函数值阈值，得到优化后的所述预训练语言模型。 12.一种语言模型的优化装置，其特征在于，包括：第一获取单元，用于获取待检测语句中的待检测错别字、所述待检测错别字的上下文、以及所述待检测错别字对应的目标标准字；预测单元，用于基于所述待检测错别字的上下文，利用预训练语言模型对所述待检测错别字对应的标准字进行预测，以获取所述待检测错别字的预测结果；其中，所述预测结果权　利　要　求　书 2/3 页 3 CN 115114904 A 3

专利 语言模型的优化方法、装置以及电子设备

专利语言模型的优化方法、装置以及电子设备