说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210537412.3 (22)申请日 2022.05.17 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦二层 (72)发明人 桂睿 马芸 曹宇慧 黄硕  陈永锋  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 单冠飞 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 文本纠错训练语料的获取方法、 装置及电子 设备 (57)摘要 本公开公开了文本纠错训练语料的获取方 法, 涉及数据处理技术领域, 尤其涉及大数据、 自 然语言处理、 人工智能等领域。 具体实现方案为: 获取参考纠错模 型及初始训练语料; 将待纠错文 本输入参考纠错模型, 获取多个预测文本及每个 预测文本中每个位置的预测字符对应的第一概 率; 根据该预测文本、 第一概率及标注文本, 确定 待纠错文本中的待改写字 符及改写模式; 基于改 写模式, 对待改写字符进行改写, 获取目标领域 对应的文本纠错训练语料。 由此, 通过利用参考 纠错模型对 领域文本进行预测, 确定该参考纠错 模型, 在该领域预测中的薄弱点, 针对薄弱点生 成训练语料, 从而提高了生成的训练语料的质 量, 为获取特定领域文本纠错模 型的可靠性和准 确性提供了条件。 权利要求书3页 说明书12页 附图5页 CN 114781386 A 2022.07.22 CN 114781386 A 1.一种文本纠错训练语料的获取 方法, 包括: 获取参考纠 错模型及初始训练语料, 其中, 所述参考纠 错模型为基于通用领域语料训 练生成的, 所述初始训练语料中包括目标 领域的待纠错文本及对应的标注文本; 将所述待纠错文本输入所述参考纠错模型, 以获取多个预测文本及每个预测文本 中每 个位置的预测字符对应的第一 概率; 根据所述多个预测文本、 每个位置的预测字符对应的第一概率及所述标注文本, 确定 所述待纠错文本中的待改写字符及改写模式; 基于所述改写模式, 对所述待改写字符进行改写, 以获取所述目标领域对应的更新后 的文本纠错训练语料。 2.如权利要求1所述的方法, 其中, 所述根据所述多个预测文本、 每个位置的预测字符 对应的第一 概率及所述标注文本, 确定所述待纠错文本中的待改写字符及改写模式, 包括: 根据所述预测文本与所述标注文本的匹配度、 及每个位置的预测字符对应的第一概 率, 确定所述标注文本中每 个位置标注字符对应的第一目标概 率; 根据每个位置对应的最大第 一概率与第 一目标概率的差值, 确定每个位置对应的第 一 错误概率; 根据所述待纠错文本中每个位置对应的第 一错误概率, 确定所述待纠错文本中的待改 写字符及改写模式。 3.如权利要求1所述的方法, 其中, 所述初始训练语料中还包括所述待纠错文本对应的 第一拼音序列及所述标注文本对应的第二拼音序列, 所述将所述待纠错文本输入所述参考 纠错模型, 以获取多个预测文本及每个预测文本中每个位置的预测字符对应的第一概率, 包括: 将所述待纠错文本及所述第一拼音序列输入所述参考纠错模型, 以获取多个预测文 本、 每个所述预测文本中每个位置的预测字符对应的第一概率、 多个预测拼音序列及每个 所述预测拼音序列中每 个位置的预测拼音对应的第二 概率。 4.如权利要求3所述的方法, 其中, 所述根据所述多个预测文本、 每个位置的预测字符 对应的第一 概率及所述标注文本, 确定所述待纠错文本中的待改写字符及改写模式, 包括: 根据所述预测文本与所述标注文本的匹配度、 及每个位置的预测字符对应的第一概 率, 确定所述标注文本中每 个位置标注字符对应的第一目标概 率; 根据每个位置对应的最大第 一概率与第 一目标概率的差值, 确定每个位置对应的第 一 错误概率; 根据所述预测拼音序列与 所述第二拼音序列的匹配度、 及每个位置的预测拼音对应的 第二概率, 确定所述第二 拼音序列中每 个位置的第二 拼音对应的第二目标概 率; 根据每个位置对应的最大第 二概率与第 二目标概率的差值, 确定每个位置对应的第 二 错误概率; 根据所述待纠错文本中每个位置对应的第 一错误概率及第 二错误概率, 确定所述待纠 错文本和/或所述第一 拼音序列中的待改写位置, 及改写模式。 5.如权利要求3所述的方法, 其中, 所述将所述待纠错文本及所述第 一拼音序列输入所 述参考纠错模型, 包括: 确定所述第一 拼音序列中每 个字符对应的拼音子序列;权 利 要 求 书 1/3 页 2 CN 114781386 A 2将每个所述拼音子序列进行聚合, 以确定每 个字符对应的拼音向量; 将所述待纠错文本 中每个字符对应的字符向量与拼音向量进行融合, 以获取每个字符 对应的融合向量; 将所述待纠错文本对应的融合向量输入所述 参考纠错模型。 6.如权利要求1 ‑5任一所述的方法, 其中, 所述基于所述改写模式, 对所述待改写字符 进行改写, 以获取 所述目标 领域对应的更新后的文本纠错训练语料, 包括: 获取所述待改写字符对应的混淆字符集、 及所述混淆字符集中每个混淆字符在所述目 标领域的分布概 率; 根据所述每个混淆字符在所述目标领域的分布概率, 确定所述待改写字符对应的目标 字符; 利用所述目标字符, 替换 所述待改写字符, 以生成更新后的文本纠错训练语料。 7.一种文本纠错训练语料的获取装置, 包括: 获取模块, 用于获取参考纠错模型及初始训练语料, 其中, 所述参考纠错模型为基于通 用领域语料训练生成的, 所述初始训练语料中包括目标领域的待纠错文本及对应的标注文 本; 预测模块, 用于将所述待纠 错文本输入所述参考纠 错模型, 以获取多个预测文本及每 个预测文本中每 个位置的预测字符对应的第一 概率; 确定模块, 用于根据所述多个预测文本、 每个位置的预测字符对应的第一概率及所述 标注文本, 确定所述待纠错文本中的待改写字符及改写模式; 改写模块, 用于基于所述改写模式, 对所述待改写字符进行改写, 以获取所述目标领域 对应的更新后的文本纠错训练语料。 8.如权利要求7 所述的装置, 其中, 所述确定模块, 用于: 根据所述预测文本与所述标注文本的匹配度、 及每个位置的预测字符对应的第一概 率, 确定所述标注文本中每 个位置标注字符对应的第一目标概 率; 根据每个位置对应的最大第 一概率与第 一目标概率的差值, 确定每个位置对应的第 一 错误概率; 根据所述待纠错文本中每个位置对应的第 一错误概率, 确定所述待纠错文本中的待改 写字符及改写模式。 9.如权利要求7所述的装置, 其中, 所述初始训练语料中还包括所述待纠错文本对应的 第一拼音序列及所述标注文本对应的第二 拼音序列, 所述预测模块, 用于: 将所述待纠错文本及所述第一拼音序列输入所述参考纠错模型, 以获取多个预测文 本、 每个所述预测文本中每个位置的预测字符对应的第一概率、 多个预测拼音序列及每个 所述预测拼音序列中每 个位置的预测拼音对应的第二 概率。 10.如权利要求9所述的装置, 其中, 所述确定模块, 用于: 根据所述预测文本与所述标注文本的匹配度、 及每个位置的预测字符对应的第一概 率, 确定所述标注文本中每 个位置标注字符对应的第一目标概 率; 根据每个位置对应的最大第 一概率与第 一目标概率的差值, 确定每个位置对应的第 一 错误概率; 根据所述预测拼音序列与 所述第二拼音序列的匹配度、 及每个位置的预测拼音对应的权 利 要 求 书 2/3 页 3 CN 114781386 A 3

.PDF文档 专利 文本纠错训练语料的获取方法、装置及电子设备

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本纠错训练语料的获取方法、装置及电子设备 第 1 页 专利 文本纠错训练语料的获取方法、装置及电子设备 第 2 页 专利 文本纠错训练语料的获取方法、装置及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:13:37上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。