说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111666573.4 (22)申请日 2021.12.31 (71)申请人 科大讯飞股份有限公司 地址 230088 安徽省合肥市高新 开发区望 江西路666号 (72)发明人 王永灿 丁克玉  (74)专利代理 机构 深圳市威世博知识产权代理 事务所(普通 合伙) 44280 代理人 刘希 (51)Int.Cl. G06F 3/023(2006.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 文本输入法以及相关装置 (57)摘要 本申请公开了一种文本输入法以及相关装 置, 包括: 获取字符串和融合候选词向量库; 将字 符串输入解码模型, 得到字符串的解码词; 其中, 解码模型用于获取字符串的语义特征, 利用字 符 串的语义特征和融合候选词向量库, 得到字符串 的解码词; 融合候选词向量库中包括多个候选语 义特征, 候选语义特征是候选字的融合语义特 征, 候选字的融合语义特征是候选字的通用语义 特征与候选字的人名语义特征的加权融合, 解码 词为字符串中各字符的候选字的组合。 这样可以 基于神经网络一体化建模, 实现通用输入与人名 输入的统一 建模协同解码, 并且在保障解码效果 的同时, 避免给用户引入更多操作成本, 从而改 善人名解码效果, 提升人名输入效率。 权利要求书2页 说明书10页 附图3页 CN 114356116 A 2022.04.15 CN 114356116 A 1.一种文本 输入法, 其特 征在于, 包括: 获取字符串和融合候选词向量库; 其中, 所述字符串包括按键序列、 语言序列及笔画序 列; 将所述字符串输入解码模型, 得到所述字符串的解码词; 其中, 所述解码模型用于获取所述字符串的语义特征, 利用所述字符串的语义特征和 所述融合候选词向量库, 得到所述字符串的解码词; 所述融合候选词向量库中包括多个候 选语义特征, 所述候选语义特征是候选字的融合语义特征, 所述候选字的融合语义特征是 候选字的通用语义特征与候选字的人名语义特征的加权融合, 所述解码词为所述字符串中 各字符的候选 字的组合。 2.根据权利要求1所述的文本 输入法, 其特 征在于, 所述解码模型还用于获取所述字符串为人名字符串的概率值, 将所述概率值作为候选 字的人名语义特征的权重系数, 以加权融合候选字的通用语义特征与候选字的人名语义特 征, 候选字的通用语义特 征的权重系数与候选 字的人名语义特 征的权重系数的和为1。 3.根据权利要求2所述的文本 输入法, 其特 征在于, 所述解码模型包括端到端神经网络结构, 所述端到端神经网络结构包括预测模块, 所 述预测模块包括编 码器以及与所述编 码器连接的分类网络, 所述编 码器用于对所述字符串 进行编码得到所述字符串的语义特征, 所述分类网络用于获取所述字符串为人名字符串的 概率值。 4.根据权利要求3所述的文本输入法, 其特征在于, 所述端到端神经网络结构还包括解 码模块; 所述解码模块用于逐字符地从所述融合候选词向量库中获取匹配当前字符的候选语 义特征, 匹配当前字符的候选语义特 征为多个; 融合前一字符的解码信息计算匹配当前字符的各个候选语义特 征的概率。 5.根据权利要求 4所述的文本 输入法, 其特 征在于, 所述编码器的网络结构为Bi LSTM或压缩的预训练语言表征模型BERT; 所述分类网络的网络结构为包括全连接层的分类网络; 所述解码模块的网络结构为长短期记 忆网络LSTM或t ransformer模型。 6.根据权利要求3所述的文本 输入法, 其特 征在于, 所述文本 输入法还 包括: 获取样本语料, 所述样本语料为拼音串, 所述拼音串携带文本标签和概率标签, 所述文 本标签用于标识所述拼音串对应的文本, 所述概率标签用于标识所述拼音串对应的文本是 通用文本还是 人名文本; 将所述样本语料输入初始端到端神经网络, 计算端到端神经网络的损 失, 所述损 失为 概率损失与文本损失的加权融合; 基于所述损失, 迭代更新端到端神经网络的参数, 直至满足训练截止条件。 7.根据权利要求1所述的文本 输入法, 其特 征在于, 所述文本 输入法还 包括: 构建基础候选词向量库, 所述基础候选词向量库包括通用词库和人名词库, 所述通用 词库中包括多个通用语义特 征, 所述人名词库中包括多个人名语义特 征; 所述获取融合候选词向量库包括: 从所述基础候选词向量库中获取所述字符串中各字 符的候选字的通用语义特征和人名语义特征; 加权融合候选字的通用语义特征与候选字的权 利 要 求 书 1/2 页 2 CN 114356116 A 2人名语义特 征, 得到候选 字的融合语义特 征, 构成所述融合 候选词向量库。 8.根据权利要求7 所述的文本 输入法, 其特 征在于, 所述构建基础候选词向量库包括: 获取通用文本语料和人名文本语料; 将所述通用文本语料输入第一语言模型获取所述通用文本语料中各个字的通用语义 特征, 将所述人名文本语料输入第二语言模型获取所述人名文本语料中各个字的人名语义 特征, 形成所述基础候选词向量库。 9.一种文本 输入装置, 其特 征在于, 包括: 获取模块, 用于获取字符串和融合 候选词向量库; 解码词模块, 与所述获取模块连接, 用于将所述字符串输入解码模型, 得到所述字符串 的解码词; 其中, 所述解码模型用于获取所述字符串的语义特征, 利用所述字符串的语义特 征和所述融合候选词向量库, 得到所述字符串的解码词; 所述融合候选词向量库中包括多 个候选语义特征, 所述候选语义特征是候选字的融合语义特征, 所述候选字的融合语义特 征是候选字的通用语义特征与候选字的人名语义特征的加权融合, 所述解码词为所述字符 串中各字符的候选 字的组合。 10.一种电子设备, 其特征在于, 包括相互耦接的存储器和 处理器, 所述存储器中存储 有程序指 令, 所述处理器用于执行所述程序指 令以实现权利要求 1至8任一项 所述的文本输 入法。 11.一种存储装置, 其特征在于, 存储有能够被处理器运行的程序指令, 所述程序指令 用于实现权利要求1至8任一项所述的文本 输入法。权 利 要 求 书 2/2 页 3 CN 114356116 A 3

.PDF文档 专利 文本输入法以及相关装置

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本输入法以及相关装置 第 1 页 专利 文本输入法以及相关装置 第 2 页 专利 文本输入法以及相关装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 00:20:15上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。