说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211386677.4 (22)申请日 2022.11.07 (71)申请人 北京澜舟 科技有限公司 地址 100000 北京市海淀区海淀大街3号1 幢10层10 01 (72)发明人 马永亮 甘子发 周明  (74)专利代理 机构 深圳市智享知识产权代理有 限公司 4 4361 专利代理师 罗芬梅 (51)Int.Cl. G06F 3/023(2006.01) G06F 40/157(2020.01) G06F 40/242(2020.01) G06K 9/62(2022.01) (54)发明名称 一种拼音汉字转换方法、 转换模型训练方法 及存储介质 (57)摘要 本发明涉及拼音输入法技术领域, 特别涉及 一种拼音汉字转换方法、 转换模 型训练方法及存 储介质, 获取键盘上拼音的布局信息, 并根据该 布局信息将各字母附近的其他字母和/或字符作 为其混淆集; 获取包含预设领域中文句子的语 料, 将语料中每个中文句子都转换为拼音序列, 并利用混淆集基于预设规则向拼音序列中插入 噪声得到拼音序列训练数据, 基于拼音序列训练 数据训练拼音汉字转换模型。 首先向拼音序列中 插入噪声以得到包含不同类型和粒度的拼音错 误输入的数据, 以覆盖可能出现的各类错误输 入, 并使用这些数据训练模型, 模型在噪声数据 上学习后, 可以解决绝大部分场景下的不同复杂 程度错误的拼音输入情况。 权利要求书2页 说明书7页 附图4页 CN 115437511 A 2022.12.06 CN 115437511 A 1.一种拼音 汉字转换模型训练方法, 其特 征在于: 包括以下步骤: 获取键盘上拼音的布局信息, 并根据该布局信息将各字母附近的其他字母和/或字符 作为其混淆集; 获取包含预设领域中文句子的语料, 将语料中每个中文句子都转换为拼音序列, 并利 用混淆集基于预设规则向拼音序列中插入噪声得到拼音序列训练数据, 所述预设规则包括 替换规则、 删除规则、 插 入规则以及乱序规则其中的一种或多种; 基于拼音序列训练数据训练拼音汉字转换模型, 训练时拼音汉字转换模型学习将拼音 序列中的每 个拼音首字母预测为对应汉字, 拼音序列中的其 他字母对应输出为预设字符。 2.如权利要求1所述的拼音汉字转换模型训练方法, 其特征在于: 利用混淆集基于预设 规则向拼音序列中插 入噪声包括以下步骤: 基于替换规则, 将拼音序列中的至少一个字母随机替换成其 他字母和/或字符; 和/或 基于删除规则, 将拼音序列中的至少一个字母删除; 和/或 基于插入规则, 向拼音序列中插 入至少一个随机 字母和/或字符; 和/或 基于乱序规则, 将拼音序列中的至少一对两个相邻字母进行位置替换。 3.如权利要求1所述的拼音汉字转换模型训练方法, 其特征在于: 对中文句子插入噪声 时随机选取小于或等于20%的位置插 入噪声。 4.如权利要求1所述的拼音汉字转换模型训练方法, 其特征在于: 对于一个中文句子, 根据中文句子的长度重复多次插 入噪音的步骤以获得多条拼音序列训练数据。 5.如权利要求1所述的拼音汉字转换模型训练方法, 其特征在于: 插入噪声时, 对于其 中一些拼音序列首部或尾部连接英文 单词, 以及在部分插入的英文单词中也随机插入字母 和/或字符。 6.如权利要求1所述的拼音汉字转换模型训练方法, 其特征在于: 插入噪声时, 对于拼 音首字母的修改比例占所有插 入噪声的10%。 7.如权利要求1所述的拼音汉字转换模型训练方法, 其特征在于: 拼音汉字转换模型采 用Soft‑Masked BERT模型。 8.如权利要求7所述的拼音汉字转换模型训练方法, 其特征在于: 基于拼音序列训练数 据训练拼音 汉字转换模型包括以下步骤: 输入拼音序列训练数据至拼音汉字转换模型中, 每个字符看作一个token, 将每个 token转换为BERT词典中相对应的编号; 拼音序列经过拼音汉字转换模型的Embeddin g层, 拼音序列中的每个字母和/或字符都 被转换成一个向量; 向量经过检测模块、 Soft ‑Masking模块和转换模块, 提取向量的表示特征, 并输出特征 向量, 同时检测模块检测为 拼音首字母的字母; 之后特征向量进入分类器, 对于拼音序列中为拼音首字母的字母, 分类器输出BERT词 典中每个token的分数, 选择分数最大的token, 作为该字母最终的预测结果, 其他字母和/ 或字符预测为预设字符。 9.一种拼音汉字转换方法, 采用 如权利要求1 ‑8任一项所述的拼音汉字转换模型的训 练方法训练获得的拼音汉字转换模型实现, 其特征在于: 通过键盘输入拼音序列, 通过拼音 汉字转换模型将拼音序列转换为相应的汉字 。权 利 要 求 书 1/2 页 2 CN 115437511 A 210.一种计算机存储介质, 其上存储有计算机程序, 其特征在于: 所述计算机程序被执 行时实现如权利要求9所述的一种拼音 汉字转换 方法的步骤。权 利 要 求 书 2/2 页 3 CN 115437511 A 3

.PDF文档 专利 一种拼音汉字转换方法、转换模型训练方法及存储介质

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种拼音汉字转换方法、转换模型训练方法及存储介质 第 1 页 专利 一种拼音汉字转换方法、转换模型训练方法及存储介质 第 2 页 专利 一种拼音汉字转换方法、转换模型训练方法及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:42:01上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。