专利文本纠错训练语料的获取方法、装置及电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210537412.3 (22)申请日 2022.05.17 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦二层 (72)发明人桂睿　马芸　曹宇慧　黄硕　陈永锋　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 专利代理师单冠飞 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称文本纠错训练语料的获取方法、装置及电子设备 (57)摘要本公开公开了文本纠错训练语料的获取方法，涉及数据处理技术领域，尤其涉及大数据、自然语言处理、人工智能等领域。具体实现方案为：获取参考纠错模型及初始训练语料；将待纠错文本输入参考纠错模型，获取多个预测文本及每个预测文本中每个位置的预测字符对应的第一概率；根据该预测文本、第一概率及标注文本，确定待纠错文本中的待改写字符及改写模式；基于改写模式，对待改写字符进行改写，获取目标领域对应的文本纠错训练语料。由此，通过利用参考纠错模型对领域文本进行预测，确定该参考纠错模型，在该领域预测中的薄弱点，针对薄弱点生成训练语料，从而提高了生成的训练语料的质量，为获取特定领域文本纠错模型的可靠性和准确性提供了条件。权利要求书3页说明书12页附图5页 CN 114781386 A 2022.07.22 CN 114781386 A 1.一种文本纠错训练语料的获取方法，包括：获取参考纠错模型及初始训练语料，其中，所述参考纠错模型为基于通用领域语料训练生成的，所述初始训练语料中包括目标领域的待纠错文本及对应的标注文本；将所述待纠错文本输入所述参考纠错模型，以获取多个预测文本及每个预测文本中每个位置的预测字符对应的第一概率；根据所述多个预测文本、每个位置的预测字符对应的第一概率及所述标注文本，确定所述待纠错文本中的待改写字符及改写模式；基于所述改写模式，对所述待改写字符进行改写，以获取所述目标领域对应的更新后的文本纠错训练语料。 2.如权利要求1所述的方法，其中，所述根据所述多个预测文本、每个位置的预测字符对应的第一概率及所述标注文本，确定所述待纠错文本中的待改写字符及改写模式，包括：根据所述预测文本与所述标注文本的匹配度、及每个位置的预测字符对应的第一概率，确定所述标注文本中每个位置标注字符对应的第一目标概率；根据每个位置对应的最大第一概率与第一目标概率的差值，确定每个位置对应的第一错误概率；根据所述待纠错文本中每个位置对应的第一错误概率，确定所述待纠错文本中的待改写字符及改写模式。 3.如权利要求1所述的方法，其中，所述初始训练语料中还包括所述待纠错文本对应的第一拼音序列及所述标注文本对应的第二拼音序列，所述将所述待纠错文本输入所述参考纠错模型，以获取多个预测文本及每个预测文本中每个位置的预测字符对应的第一概率，包括：将所述待纠错文本及所述第一拼音序列输入所述参考纠错模型，以获取多个预测文本、每个所述预测文本中每个位置的预测字符对应的第一概率、多个预测拼音序列及每个所述预测拼音序列中每个位置的预测拼音对应的第二概率。 4.如权利要求3所述的方法，其中，所述根据所述多个预测文本、每个位置的预测字符对应的第一概率及所述标注文本，确定所述待纠错文本中的待改写字符及改写模式，包括：根据所述预测文本与所述标注文本的匹配度、及每个位置的预测字符对应的第一概率，确定所述标注文本中每个位置标注字符对应的第一目标概率；根据每个位置对应的最大第一概率与第一目标概率的差值，确定每个位置对应的第一错误概率；根据所述预测拼音序列与所述第二拼音序列的匹配度、及每个位置的预测拼音对应的第二概率，确定所述第二拼音序列中每个位置的第二拼音对应的第二目标概率；根据每个位置对应的最大第二概率与第二目标概率的差值，确定每个位置对应的第二错误概率；根据所述待纠错文本中每个位置对应的第一错误概率及第二错误概率，确定所述待纠错文本和/或所述第一拼音序列中的待改写位置，及改写模式。 5.如权利要求3所述的方法，其中，所述将所述待纠错文本及所述第一拼音序列输入所述参考纠错模型，包括：确定所述第一拼音序列中每个字符对应的拼音子序列；权　利　要　求　书 1/3 页 2 CN 114781386 A 2将每个所述拼音子序列进行聚合，以确定每个字符对应的拼音向量；将所述待纠错文本中每个字符对应的字符向量与拼音向量进行融合，以获取每个字符对应的融合向量；将所述待纠错文本对应的融合向量输入所述参考纠错模型。 6.如权利要求1 ‑5任一所述的方法，其中，所述基于所述改写模式，对所述待改写字符进行改写，以获取所述目标领域对应的更新后的文本纠错训练语料，包括：获取所述待改写字符对应的混淆字符集、及所述混淆字符集中每个混淆字符在所述目标领域的分布概率；根据所述每个混淆字符在所述目标领域的分布概率，确定所述待改写字符对应的目标字符；利用所述目标字符，替换所述待改写字符，以生成更新后的文本纠错训练语料。 7.一种文本纠错训练语料的获取装置，包括：获取模块，用于获取参考纠错模型及初始训练语料，其中，所述参考纠错模型为基于通用领域语料训练生成的，所述初始训练语料中包括目标领域的待纠错文本及对应的标注文本；预测模块，用于将所述待纠错文本输入所述参考纠错模型，以获取多个预测文本及每个预测文本中每个位置的预测字符对应的第一概率；确定模块，用于根据所述多个预测文本、每个位置的预测字符对应的第一概率及所述标注文本，确定所述待纠错文本中的待改写字符及改写模式；改写模块，用于基于所述改写模式，对所述待改写字符进行改写，以获取所述目标领域对应的更新后的文本纠错训练语料。 8.如权利要求7 所述的装置，其中，所述确定模块，用于：根据所述预测文本与所述标注文本的匹配度、及每个位置的预测字符对应的第一概率，确定所述标注文本中每个位置标注字符对应的第一目标概率；根据每个位置对应的最大第一概率与第一目标概率的差值，确定每个位置对应的第一错误概率；根据所述待纠错文本中每个位置对应的第一错误概率，确定所述待纠错文本中的待改写字符及改写模式。 9.如权利要求7所述的装置，其中，所述初始训练语料中还包括所述待纠错文本对应的第一拼音序列及所述标注文本对应的第二拼音序列，所述预测模块，用于：将所述待纠错文本及所述第一拼音序列输入所述参考纠错模型，以获取多个预测文本、每个所述预测文本中每个位置的预测字符对应的第一概率、多个预测拼音序列及每个所述预测拼音序列中每个位置的预测拼音对应的第二概率。 10.如权利要求9所述的装置，其中，所述确定模块，用于：根据所述预测文本与所述标注文本的匹配度、及每个位置的预测字符对应的第一概率，确定所述标注文本中每个位置标注字符对应的第一目标概率；根据每个位置对应的最大第一概率与第一目标概率的差值，确定每个位置对应的第一错误概率；根据所述预测拼音序列与所述第二拼音序列的匹配度、及每个位置的预测拼音对应的权　利　要　求　书 2/3 页 3 CN 114781386 A 3

专利 文本纠错训练语料的获取方法、装置及电子设备

专利文本纠错训练语料的获取方法、装置及电子设备