说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210788215.9 (22)申请日 2022.07.06 (71)申请人 招联消费金融有限公司 地址 518000 广东省深圳市前海深港合作 区前湾一路1号A栋201室 (入驻深圳市 前海商务秘书 有限公司) (72)发明人 程杨 王启腾 徐伟 林昊  张文锋 王福海  (74)专利代理 机构 华进联合专利商标代理有限 公司 44224 专利代理师 伍健聪 (51)Int.Cl. G06F 40/232(2020.01) G06F 40/30(2020.01) G06F 40/289(2020.01)G06F 40/284(2020.01) G06F 40/279(2020.01) G06F 40/216(2020.01) G06F 40/211(2020.01) G06N 3/08(2006.01) G06F 16/31(2019.01) (54)发明名称 目标领域样本库建立方法、 装置、 计算机设 备和存储介质 (57)摘要 本申请涉及一种目标领域样 本库建立方法、 装置、 计算机设备、 存储介质和计算机程序产品。 所述方法包括: 获取各个目标字母与混淆字母之 间的混淆关联度; 获取目标领域的训练文本中的 待替换字, 以及对应的初始拼音; 对所述初始拼 音进行混淆处理, 得到多个参考拼音; 基于所述 混淆关联度, 计算所述初始拼音分别 与各个所述 参考拼音的编辑距离; 基于所述编辑距离从各个 所述参考拼音中确定待替换拼音, 基于所述待替 换拼音生成混淆字, 将所述训练文本中的待替换 字替换成所述混淆字, 得到多个混淆文本; 建立 所述训练文本和各个所述混淆文本之间的关联 关系, 得到纠错样本库。 纠错样本库训练得到的 文本纠错模 型具有针对性和实用性, 提高了纠错 的准确率。 权利要求书2页 说明书15页 附图6页 CN 115186653 A 2022.10.14 CN 115186653 A 1.一种目标 领域样本库建立的方法, 其特 征在于, 所述方法包括: 获取各个目标字母与混淆字母之间的混淆关联度, 所述混淆关联度是基于公共样本库 中的各个公共样本对应的目标拼音与混淆拼音间的关联关系确定的; 获取目标 领域的训练文本中的待替换字, 以及所述待替换字对应的初始拼音; 对所述初始拼音 进行混淆处 理, 得到所述待替换字对应的多个参 考拼音; 基于所述混淆关联度, 计算所述初始拼音分别与各个所述 参考拼音的编辑距离; 基于所述编 辑距离从各个所述参考拼音中确定待替换拼音, 基于所述待替换拼音生成 所述待替换字对应的混淆字, 将所述训练文本中的待替换字替换成所述混淆字, 得到所述 训练文本对应的多个混淆文本; 建立所述训练文本和各个所述混淆文本之间的关联关系, 得到纠 错样本库; 所述纠 错 样本库用于训练所述目标 领域的文本纠错模型。 2.根据权利要求1所述的方法, 其特征在于, 所述获取各个目标字母与混淆字母之间的 混淆关联度, 包括: 获取公共样本库中目标拼音和与 所述目标拼音对应的混淆拼音; 所述目标拼音包含多 个目标字母, 所述混淆拼音包 含多个混淆字母; 基于各个所述目标字母与 各个所述混淆字母的位置关系, 建立所述目标字母与所述混 淆字母之间的参 考关联对; 统计参考关联对中具有相同的目标字母和混淆字母的参考关联对的数量, 得到第 一统 计值; 基于所述第一统计值, 统计参考关联对中同一目标字母对应的参考关联对的数量, 得 到第二统计值; 计算第一统计值与第 二统计值之间的比例, 得到目标字母与混淆字母之间的混淆关联 度。 3.根据权利要求2所述的方法, 其特征在于, 所述基于各个所述目标字母与 各个所述混 淆字母的位置关系, 建立所述目标字母与所述混淆字母之间的参 考关联对, 包括: 获取所述目标拼音的第 一个目标字母作为当前目标字母, 获取所述混淆拼音的第 一个 混淆字母作为当前混淆字母; 将当前目标字母与当前混淆字母组成为 参考关联对; 获取所述目标拼音的下一个目标字母作为当前目标字母, 获取所述混淆拼音的下一个 混淆字母作为当前混淆字母, 若所述 目标拼音的下一个目标字母为空, 所述混淆拼音的下 一个混淆字母不为空, 则用目标字符作为当前目标字母, 若所述混淆拼音的下一个混淆字 母为空, 所述目标拼音的下一个目标字母不为空, 则用所述目标字 符作为当前混淆字母, 重 复所述将当前目标字母与当前混淆字母组成为参考关联对步骤, 直至所述目标拼音的下一 个目标字母和所述混淆拼音的下一个混淆字母均为空。 4.根据权利要求1所述的方法, 其特征在于, 所述基于所述混淆关联度, 计算所述初始 拼音分别与各个所述 参考拼音的编辑距离, 包括: 建立所述初始拼音中的初始字母与所述参考拼音中的参考字母之间的多个目标关联 对; 基于所述混淆关联度, 查询各个所述目标关联对所对应的目标混淆关联度;权 利 要 求 书 1/2 页 2 CN 115186653 A 2统计各个目标混淆关联度, 得到所述初始拼音与所述 参考拼音的编辑距离 。 5.根据权利要求1所述的方法, 其特征在于, 所述对所述初始拼音进行混淆处理, 得到 所述待替换字对应的多个参 考拼音, 包括: 获取所述初始拼音对应的初始声母和初始韵母; 获取混淆拼音规则库, 基于所述混淆拼音规则库为所述初始声母匹配对应的参考声 母、 为所述初始韵母匹配对应的参 考韵母; 基于所述 参考声母和所述 参考韵母, 形成所述待替换字对应的参 考拼音。 6.根据权利要求1所述的方法, 其特征在于, 所述基于所述待替换拼音生成所述待替换 字对应的混淆字, 将所述训练文本中的待替换字替换成所述混淆字, 得到所述训练文本对 应的多个混淆文本, 包括: 将所述待替换拼音与各个声调组合, 得到目标混淆拼音; 基于所述目标混淆拼音, 生成多个混淆字; 将所述训练文本中的所述待替换字替换成所述混淆字, 得到多个参 考文本; 将各个所述 参考文本输入到文本检测模型, 筛 选得到所述训练文本对应的混淆文本 。 7.根据权利要求1所述的方法, 其特征在于, 所述获取目标领域的训练文本 中的待替换 字, 包括: 获取目标 领域的训练文本; 对所述训练文本进行分词, 得到多个组成词; 从所述组成词中筛 选得到关键词; 随机获取 所述关键词中的字, 作为所述训练文本中的待替换字 。 8.一种样本库编制的装置, 其特 征在于, 所述装置包括: 混淆关联度获取模块, 用于获取各个目标字母与混淆字母之间的混淆关联度, 所述混 淆关联度是基于公共样本库中的各个公共样本对应的目标拼音与混淆拼音间的关联关系 确定的; 待替换字获取模块, 用于获取目标领域的训练文本中的待替换字, 以及所述待替换字 对应的初始拼音; 混淆模块, 用于对所述初始拼音进行混淆处理, 得到所述待替换字对应的多个参考拼 音; 计算模块, 用于基于所述混淆关联度, 计算所述初始拼音分别与各个所述参考拼音的 编辑距离; 替换模块, 用于基于所述编辑距离从各个所述参考拼音中确定待替换拼音, 基于所述 待替换拼音生成所述待替换字对应的混淆字, 将所述训练文本中的待替换字替换成所述混 淆字, 得到所述训练文本对应的多个混淆文本; 关联模块, 用于建立所述训练文本和各个所述混淆文本之间的关联关系, 得到纠 错样 本库; 所述纠错样本库用于训练所述目标 领域的文本纠错模型。 9.一种计算机设备, 包括存储器和处理器, 所述存储器存储有计算机程序, 其特征在 于, 所述处 理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。 10.一种计算机程序产品, 包括计算机程序, 其特征在于, 该计算机程序被处理器执行 时实现权利要求1至7中任一项所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 115186653 A 3

.PDF文档 专利 目标领域样本库建立方法、装置、计算机设备和存储介质

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 目标领域样本库建立方法、装置、计算机设备和存储介质 第 1 页 专利 目标领域样本库建立方法、装置、计算机设备和存储介质 第 2 页 专利 目标领域样本库建立方法、装置、计算机设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:14:15上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。