说明:收录全网最新的团体标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111666573.4 (22)申请日 2021.12.31 (71)申请人 科大讯飞股份有限公司 地址 230088 安徽省合肥市高新 开发区望 江西路666号 (72)发明人 王永灿 丁克玉 (74)专利代理 机构 深圳市威世博知识产权代理 事务所(普通 合伙) 44280 代理人 刘希 (51)Int.Cl. G06F 3/023(2006.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 文本输入法以及相关装置 (57)摘要 本申请公开了一种文本输入法以及相关装 置, 包括: 获取字符串和融合候选词向量库; 将字 符串输入解码模型, 得到字符串的解码词; 其中, 解码模型用于获取字符串的语义特征, 利用字 符 串的语义特征和融合候选词向量库, 得到字符串 的解码词; 融合候选词向量库中包括多个候选语 义特征, 候选语义特征是候选字的融合语义特 征, 候选字的融合语义特征是候选字的通用语义 特征与候选字的人名语义特征的加权融合, 解码 词为字符串中各字符的候选字的组合。 这样可以 基于神经网络一体化建模, 实现通用输入与人名 输入的统一 建模协同解码, 并且在保障解码效果 的同时, 避免给用户引入更多操作成本, 从而改 善人名解码效果, 提升人名输入效率。 权利要求书2页 说明书10页 附图3页 CN 114356116 A 2022.04.15 CN 114356116 A 1.一种文本 输入法, 其特 征在于, 包括: 获取字符串和融合候选词向量库; 其中, 所述字符串包括按键序列、 语言序列及笔画序 列; 将所述字符串输入解码模型, 得到所述字符串的解码词; 其中, 所述解码模型用于获取所述字符串的语义特征, 利用所述字符串的语义特征和 所述融合候选词向量库, 得到所述字符串的解码词; 所述融合候选词向量库中包括多个候 选语义特征, 所述候选语义特征是候选字的融合语义特征, 所述候选字的融合语义特征是 候选字的通用语义特征与候选字的人名语义特征的加权融合, 所述解码词为所述字符串中 各字符的候选 字的组合。 2.根据权利要求1所述的文本 输入法, 其特 征在于, 所述解码模型还用于获取所述字符串为人名字符串的概率值, 将所述概率值作为候选 字的人名语义特征的权重系数, 以加权融合候选字的通用语义特征与候选字的人名语义特 征, 候选字的通用语义特 征的权重系数与候选 字的人名语义特 征的权重系数的和为1。 3.根据权利要求2所述的文本 输入法, 其特 征在于, 所述解码模型包括端到端神经网络结构, 所述端到端神经网络结构包括预测模块, 所 述预测模块包括编 码器以及与所述编 码器连接的分类网络, 所述编 码器用于对所述字符串 进行编码得到所述字符串的语义特征, 所述分类网络用于获取所述字符串为人名字符串的 概率值。 4.根据权利要求3所述的文本输入法, 其特征在于, 所述端到端神经网络结构还包括解 码模块; 所述解码模块用于逐字符地从所述融合候选词向量库中获取匹配当前字符的候选语 义特征, 匹配当前字符的候选语义特 征为多个; 融合前一字符的解码信息计算匹配当前字符的各个候选语义特 征的概率。 5.根据权利要求 4所述的文本 输入法, 其特 征在于, 所述编码器的网络结构为Bi LSTM或压缩的预训练语言表征模型BERT; 所述分类网络的网络结构为包括全连接层的分类网络; 所述解码模块的网络结构为长短期记 忆网络LSTM或t ransformer模型。 6.根据权利要求3所述的文本 输入法, 其特 征在于, 所述文本 输入法还 包括: 获取样本语料, 所述样本语料为拼音串, 所述拼音串携带文本标签和概率标签, 所述文 本标签用于标识所述拼音串对应的文本, 所述概率标签用于标识所述拼音串对应的文本是 通用文本还是 人名文本; 将所述样本语料输入初始端到端神经网络, 计算端到端神经网络的损 失, 所述损 失为 概率损失与文本损失的加权融合; 基于所述损失, 迭代更新端到端神经网络的参数, 直至满足训练截止条件。 7.根据权利要求1所述的文本 输入法, 其特 征在于, 所述文本 输入法还 包括: 构建基础候选词向量库, 所述基础候选词向量库包括通用词库和人名词库, 所述通用 词库中包括多个通用语义特 征, 所述人名词库中包括多个人名语义特 征; 所述获取融合候选词向量库包括: 从所述基础候选词向量库中获取所述字符串中各字 符的候选字的通用语义特征和人名语义特征; 加权融合候选字的通用语义特征与候选字的权 利 要 求 书 1/2 页 2 CN 114356116 A 2人名语义特 征, 得到候选 字的融合语义特 征, 构成所述融合 候选词向量库。 8.根据权利要求7 所述的文本 输入法, 其特 征在于, 所述构建基础候选词向量库包括: 获取通用文本语料和人名文本语料; 将所述通用文本语料输入第一语言模型获取所述通用文本语料中各个字的通用语义 特征, 将所述人名文本语料输入第二语言模型获取所述人名文本语料中各个字的人名语义 特征, 形成所述基础候选词向量库。 9.一种文本 输入装置, 其特 征在于, 包括: 获取模块, 用于获取字符串和融合 候选词向量库; 解码词模块, 与所述获取模块连接, 用于将所述字符串输入解码模型, 得到所述字符串 的解码词; 其中, 所述解码模型用于获取所述字符串的语义特征, 利用所述字符串的语义特 征和所述融合候选词向量库, 得到所述字符串的解码词; 所述融合候选词向量库中包括多 个候选语义特征, 所述候选语义特征是候选字的融合语义特征, 所述候选字的融合语义特 征是候选字的通用语义特征与候选字的人名语义特征的加权融合, 所述解码词为所述字符 串中各字符的候选 字的组合。 10.一种电子设备, 其特征在于, 包括相互耦接的存储器和 处理器, 所述存储器中存储 有程序指 令, 所述处理器用于执行所述程序指 令以实现权利要求 1至8任一项 所述的文本输 入法。 11.一种存储装置, 其特征在于, 存储有能够被处理器运行的程序指令, 所述程序指令 用于实现权利要求1至8任一项所述的文本 输入法。权 利 要 求 书 2/2 页 3 CN 114356116 A 3
专利 文本输入法以及相关装置
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助1.5元下载(无需注册)
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助1.5元下载
本文档由 人生无常 于
2024-03-19 00:20:15
上传分享
举报
下载
原文档
(554.0 KB)
分享
友情链接
GB-T 20530-2006 文献档案资料数字化工作导则.pdf
GB-T 9126.1-2023 管法兰用非金属平垫片 第1部分:PN系列.pdf
DB12-T 1083-2021 公务用车平台运行管理规范 天津市.pdf
等保二级-安全技术-数据安全.doc
GB-T 33474-2016 物联网 参考体系结构.pdf
GB-T 20004.2-2018 团体标准化 第2部分:良好行为评价指南.pdf
DB13-T 5266-2020 基于岩体基本质量BQ分级法的公路隧道围岩级别快速判定技术要求 河北省.pdf
数据安全和个人信息保护社会责任指南2.1实施.pdf
WS-T 792-2021 日本血吸虫抗体检测标准 酶联免疫吸附试验法.pdf
DL-T 294.3-2019 发电机灭磁及转子过电压保护装置技术条件 第3部分 转子过电压保护.pdf
GB-T 4723-2017 印制电路用覆铜箔酚醛纸层压板.pdf
GB-T 39276-2020 信息安全技术 网络产品和服务安全通用要求.pdf
JR-T0197-2020 金融数据安全 数据安全分级指南.pdf
GB-T 28799.2-2020 冷热水用耐热聚乙烯(PE-RT)管道系统 第2部分:管材.pdf
GB-T 22264.3-2022 安装式数字显示电测量仪表 第3部分:功率表和无功功率表的特殊要求.pdf
T-HAEPI 08—2023 核技术利用单位辐射事故应急预案编制指南.pdf
DB44-T 2389-2022 计量检测数据与结果数字化处理系统技术要求 广东省.pdf
ISO IEC 5392 2024 Information technology — Artificial intelligence — Referenc.pdf
飞驰云联 企业数据防泄密产品选型指南 2021.pdf
GB-T 43236-2023 城市生态风险评价技术指南.pdf
1
/
3
16
评价文档
赞助1.5元 点击下载(554.0 KB)
回到顶部
×
微信扫码支付
1.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。