说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210546618.2 (22)申请日 2022.05.18 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 马芸 桂睿 曹宇慧 黄硕  陈永锋  (74)专利代理 机构 北京英赛 嘉华知识产权代理 有限责任公司 1 1204 专利代理师 王达佐 马晓亚 (51)Int.Cl. G06F 40/232(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 拼写纠错模 型生成方法和装置、 拼写纠错方 法和装置 (57)摘要 本公开提供了一种拼写纠错模型生成方法 和装置, 涉及人工智能技术领域, 具体涉及深度 学习、 自然语言 处理等技术领域, 可应用于OCR等 场景。 具体实现方案为: 获取包括至少一个纠错 样本的纠错样本集; 基于纠错样本集, 对预训练 的文本识别模 型进行拼写纠错训练, 得到待调纠 错模型; 从纠错样本集选取包括低频词汇的低频 样本, 得到低频样本集; 基于低频样本集, 对待调 纠错模型进行拼写纠错训练, 得到拼写纠错模 型。 该实施方式提高了拼写纠错模 型对拼写错误 的泛化能力。 权利要求书3页 说明书12页 附图3页 CN 114861637 A 2022.08.05 CN 114861637 A 1.一种拼写纠错模型生成方法, 所述方法包括: 获取包括至少一个纠错样本的纠错样本集; 基于所述纠 错样本集, 对预训练的文本识别模型进行拼写纠 错训练, 得到待调纠 错模 型; 从所述纠错样本集选取包括低频词汇的低频样本, 得到低频样本集; 基于所述低频样本集, 对所述待调纠错模型进行拼写纠错训练, 得到拼写纠错模型。 2.根据权利要求1所述的方法, 所述方法还 包括: 在所述待调纠错模型训练过程中, 对所述低频样本集中低频样本的第 一目标位置的语 义表征进行对比学习, 得到第一对比学习损失; 基于所述第一对比学习损失, 调整所述待调纠错模型的参数。 3.根据权利要求2所述的方法, 其中, 所述第一目标位置为文本正确位置, 所述对所述 低频样本集中低频样本的第一目标位置的语义表征进行对比学习, 得到第一对比学习损 失, 包括: 采用预先构造的正样本与 所述文本正确位置的语义表征进行相似度对比, 得到第 一正 相似度; 采用预先构造的负样本与 所述文本正确位置的语义表征进行相似度对比, 得到第 一负 相似度; 基于所述第一 正相似度和所述第一负相似度, 计算得到所述第一对比学习损失。 4.根据权利要求1所述的方法, 其中, 所述纠 错样本集包括: 伪纠 错子样本集和真纠 错 子样本集, 所述基于所述纠错样本集, 对预训练的文本识别模 型进行拼写纠错训练, 得到待 调纠错模型包括: 采用所述伪纠 错子样本集, 对所述文本识别模型进行拼写纠 错训练, 得到初始纠 错模 型; 采用所述真纠 错子样本集, 对所述初始纠 错模型进行拼写纠 错训练, 得到待调纠 错模 型。 5.根据权利要求 4所述的方法, 所述方法还 包括: 在所述文本识别模型和所述初始纠错模型训练过程中, 对纠错样本 中第二目标位置的 语义表征进行对比学习, 得到第二对比学习损失; 基于所述第二对比学习损失, 调整所述文本识别模型和所述初始纠错模型的参数。 6.根据权利要求5所述的方法, 其中, 所述第二目标位置为文本错误位置, 所述对纠 错 样本中第二目标位置的语义表征进行对比学习, 得到第二对比学习损失, 包括: 采用预先构造的正样本与 所述文本错误位置的语义表征进行相似度对比, 得到第 二正 相似度; 采用预先构造的负样本与 所述文本错误位置的语义表征进行相似度对比, 得到第 二负 相似度; 基于所述第二 正相似度和所述第二负相似度, 计算得到所述第二对比学习损失。 7.根据权利要求 4所述的方法, 其中, 所述伪纠错子样本集的得到步骤如下: 获取初始文本样本集; 确定与所述初始文本样本集中各个文本样本的字或词音近或形近的替换词;权 利 要 求 书 1/3 页 2 CN 114861637 A 2采用所述替换词替换所述初始文本样本集中各个文本样本的字或词, 得到伪纠错子样 本集。 8.根据权利要求6所述的方法, 其中, 所述正样本通过以下至少一种方式构造得到: 将 输入的纠错样本进行截断后第二目标位置的语义表征; 利用模型中丢弃层的随机性将输入 的纠错样本进 行额外一次前馈过程后第二目标位置的语义表征; 在输入的纠错样本的词向 量上加入 对抗扰动值后第二目标位置的语义表征。 9.根据权利要求6所述的方法, 其中, 所述负样本通过以下至少一种方式构造得到: 将 包含第二目标位置真实标签的易混标签的样本输入模型后, 得到易混标签位置的语义表 征; 获取其 他随机样本随机位置的语义表征。 10.一种拼写纠错方法, 所述方法包括: 获取待纠错文本数据; 将所述待纠错文本数据输入采用权利要求1 ‑9任一项所述的方法生成的拼写纠错模型 中, 得到所述待纠错文本数据中错 误目标以及所述 错误目标的纠正结果。 11.一种拼写纠错模型生成装置, 所述装置包括: 纠错获取 单元, 被配置成获取包括至少一个纠错样本的纠错样本集; 待调训练单元, 被配置成基于所述纠 错样本集, 对预训练的文本识别模型进行拼写纠 错训练, 得到待调纠错模型; 低频获取单元, 被配置成从所述纠 错样本集选取包括低频词汇的低频样本, 得到低频 样本集; 拼写训练单元, 被配置成基于所述低频样本集, 对所述待调纠 错模型进行拼写纠 错训 练, 得到拼写纠错模型。 12.根据权利要求1 1所述的装置, 所述装置还 包括: 第一对比学习单元, 被配置成在所述待调纠 错模型训练过程中, 对所述低频样本集中 低频样本的第一目标位置的语义表征进行对比学习, 得到第一对比学习损失; 第一调整单 元, 被配置成基于所述第一对比学习损失, 调整所述待调纠错模型的参数。 13.根据权利要求12所述的装置, 其中, 所述第一目标位置为文本正确位置, 所述第一 对比学习单元进一步被配置成: 采用预先构造的正样本与所述文本正确位置的语义表征进 行相似度对比, 得到第一正相似度; 采用预先构造的负样本与所述文本正确 位置的语义表 征进行相似度对比, 得到第一负相似度; 基于所述第一正相似度和所述第一负相似度, 计算 得到所述第一对比学习损失。 14.根据权利要求12所述的装置, 其中, 所述纠 错样本集包括: 伪纠 错子样本集和真纠 错子样本集, 所述待调训练单元进一步被配置成: 采用所述伪纠错子样本集, 对 所述文本识 别模型进 行拼写纠错训练, 得到初始纠错模型; 采用所述真纠错子样 本集, 对所述初始纠错 模型进行拼写纠错训练, 得到待调纠错模型。 15.根据权利要求14所述的装置, 所述装置还 包括: 第二对比学习单元, 被配置成在所述文本识别模型和所述初始纠 错模型训练过程中, 对纠错样本中第二目标位置的语义表征进行对比学习, 得到第二对比学习损失; 第二调整单元, 被配置成基于所述第二对比学习损 失, 调整所述文本识别模型和所述 初始纠错模型的参数。权 利 要 求 书 2/3 页 3 CN 114861637 A 3

.PDF文档 专利 拼写纠错模型生成方法和装置、拼写纠错方法和装置

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 拼写纠错模型生成方法和装置、拼写纠错方法和装置 第 1 页 专利 拼写纠错模型生成方法和装置、拼写纠错方法和装置 第 2 页 专利 拼写纠错模型生成方法和装置、拼写纠错方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:12:58上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。