专利拼写纠错模型生成方法和装置、拼写纠错方法和装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210546618.2 (22)申请日 2022.05.18 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人马芸　桂睿　曹宇慧　黄硕　陈永锋　 (74)专利代理机构北京英赛嘉华知识产权代理有限责任公司 1 1204 专利代理师王达佐　马晓亚 (51)Int.Cl. G06F 40/232(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称拼写纠错模型生成方法和装置、拼写纠错方法和装置 (57)摘要本公开提供了一种拼写纠错模型生成方法和装置，涉及人工智能技术领域，具体涉及深度学习、自然语言处理等技术领域，可应用于OCR等场景。具体实现方案为：获取包括至少一个纠错样本的纠错样本集；基于纠错样本集，对预训练的文本识别模型进行拼写纠错训练，得到待调纠错模型；从纠错样本集选取包括低频词汇的低频样本，得到低频样本集；基于低频样本集，对待调纠错模型进行拼写纠错训练，得到拼写纠错模型。该实施方式提高了拼写纠错模型对拼写错误的泛化能力。权利要求书3页说明书12页附图3页 CN 114861637 A 2022.08.05 CN 114861637 A 1.一种拼写纠错模型生成方法，所述方法包括：获取包括至少一个纠错样本的纠错样本集；基于所述纠错样本集，对预训练的文本识别模型进行拼写纠错训练，得到待调纠错模型；从所述纠错样本集选取包括低频词汇的低频样本，得到低频样本集；基于所述低频样本集，对所述待调纠错模型进行拼写纠错训练，得到拼写纠错模型。 2.根据权利要求1所述的方法，所述方法还包括：在所述待调纠错模型训练过程中，对所述低频样本集中低频样本的第一目标位置的语义表征进行对比学习，得到第一对比学习损失；基于所述第一对比学习损失，调整所述待调纠错模型的参数。 3.根据权利要求2所述的方法，其中，所述第一目标位置为文本正确位置，所述对所述低频样本集中低频样本的第一目标位置的语义表征进行对比学习，得到第一对比学习损失，包括：采用预先构造的正样本与所述文本正确位置的语义表征进行相似度对比，得到第一正相似度；采用预先构造的负样本与所述文本正确位置的语义表征进行相似度对比，得到第一负相似度；基于所述第一正相似度和所述第一负相似度，计算得到所述第一对比学习损失。 4.根据权利要求1所述的方法，其中，所述纠错样本集包括：伪纠错子样本集和真纠错子样本集，所述基于所述纠错样本集，对预训练的文本识别模型进行拼写纠错训练，得到待调纠错模型包括：采用所述伪纠错子样本集，对所述文本识别模型进行拼写纠错训练，得到初始纠错模型；采用所述真纠错子样本集，对所述初始纠错模型进行拼写纠错训练，得到待调纠错模型。 5.根据权利要求 4所述的方法，所述方法还包括：在所述文本识别模型和所述初始纠错模型训练过程中，对纠错样本中第二目标位置的语义表征进行对比学习，得到第二对比学习损失；基于所述第二对比学习损失，调整所述文本识别模型和所述初始纠错模型的参数。 6.根据权利要求5所述的方法，其中，所述第二目标位置为文本错误位置，所述对纠错样本中第二目标位置的语义表征进行对比学习，得到第二对比学习损失，包括：采用预先构造的正样本与所述文本错误位置的语义表征进行相似度对比，得到第二正相似度；采用预先构造的负样本与所述文本错误位置的语义表征进行相似度对比，得到第二负相似度；基于所述第二正相似度和所述第二负相似度，计算得到所述第二对比学习损失。 7.根据权利要求 4所述的方法，其中，所述伪纠错子样本集的得到步骤如下：获取初始文本样本集；确定与所述初始文本样本集中各个文本样本的字或词音近或形近的替换词；权　利　要　求　书 1/3 页 2 CN 114861637 A 2采用所述替换词替换所述初始文本样本集中各个文本样本的字或词，得到伪纠错子样本集。 8.根据权利要求6所述的方法，其中，所述正样本通过以下至少一种方式构造得到：将输入的纠错样本进行截断后第二目标位置的语义表征；利用模型中丢弃层的随机性将输入的纠错样本进行额外一次前馈过程后第二目标位置的语义表征；在输入的纠错样本的词向量上加入对抗扰动值后第二目标位置的语义表征。 9.根据权利要求6所述的方法，其中，所述负样本通过以下至少一种方式构造得到：将包含第二目标位置真实标签的易混标签的样本输入模型后，得到易混标签位置的语义表征；获取其他随机样本随机位置的语义表征。 10.一种拼写纠错方法，所述方法包括：获取待纠错文本数据；将所述待纠错文本数据输入采用权利要求1 ‑9任一项所述的方法生成的拼写纠错模型中，得到所述待纠错文本数据中错误目标以及所述错误目标的纠正结果。 11.一种拼写纠错模型生成装置，所述装置包括：纠错获取单元，被配置成获取包括至少一个纠错样本的纠错样本集；待调训练单元，被配置成基于所述纠错样本集，对预训练的文本识别模型进行拼写纠错训练，得到待调纠错模型；低频获取单元，被配置成从所述纠错样本集选取包括低频词汇的低频样本，得到低频样本集；拼写训练单元，被配置成基于所述低频样本集，对所述待调纠错模型进行拼写纠错训练，得到拼写纠错模型。 12.根据权利要求1 1所述的装置，所述装置还包括：第一对比学习单元，被配置成在所述待调纠错模型训练过程中，对所述低频样本集中低频样本的第一目标位置的语义表征进行对比学习，得到第一对比学习损失；第一调整单元，被配置成基于所述第一对比学习损失，调整所述待调纠错模型的参数。 13.根据权利要求12所述的装置，其中，所述第一目标位置为文本正确位置，所述第一对比学习单元进一步被配置成：采用预先构造的正样本与所述文本正确位置的语义表征进行相似度对比，得到第一正相似度；采用预先构造的负样本与所述文本正确位置的语义表征进行相似度对比，得到第一负相似度；基于所述第一正相似度和所述第一负相似度，计算得到所述第一对比学习损失。 14.根据权利要求12所述的装置，其中，所述纠错样本集包括：伪纠错子样本集和真纠错子样本集，所述待调训练单元进一步被配置成：采用所述伪纠错子样本集，对所述文本识别模型进行拼写纠错训练，得到初始纠错模型；采用所述真纠错子样本集，对所述初始纠错模型进行拼写纠错训练，得到待调纠错模型。 15.根据权利要求14所述的装置，所述装置还包括：第二对比学习单元，被配置成在所述文本识别模型和所述初始纠错模型训练过程中，对纠错样本中第二目标位置的语义表征进行对比学习，得到第二对比学习损失；第二调整单元，被配置成基于所述第二对比学习损失，调整所述文本识别模型和所述初始纠错模型的参数。权　利　要　求　书 2/3 页 3 CN 114861637 A 3

专利 拼写纠错模型生成方法和装置、拼写纠错方法和装置

专利拼写纠错模型生成方法和装置、拼写纠错方法和装置