说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202111643154.9 (22)申请日 2021.12.2 9 (65)同一申请的已公布的文献号 申请公布号 CN 114417856 A (43)申请公布日 2022.04.29 (73)专利权人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦二层 (72)发明人 刘佳祥 冯仕堃  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 杜月 (51)Int.Cl. G06F 40/289(2020.01) G06K 9/62(2022.01)(56)对比文件 CN 110889290 A,2020.0 3.17 CN 112905787 A,2021.0 6.04 CN 113032534 A,2021.0 6.25 WO 2021248139 A1,2021.12.09 US 20213 58123 A1,2021.1 1.18 审查员 王诗玮 (54)发明名称 文本的稀疏编码方法、 装置及电子设备 (57)摘要 本申请公开了文本的稀 疏编码方法, 涉及数 据处理技术领域, 尤其涉及自然语言处理、 大数 据等人工智 能领域。 具体实现方案为: 将待处理 的文本进行切词处理获取初始字符序列后, 可以 将初始字符序列分割为多个包含一个插入字符 字符组及关键字符, 之后, 可以基于预设的注意 力机制, 进行自注意力学习, 以获取每个字符对 应的更新后的向量, 然后, 根据每个插入字符及 关键字符对应的更新后的向量, 确定待处理的文 本对应的编码向量。 由此, 在编码过程中, 通过利 用多个字符来承载待处理的文本中其余字符的 信息, 并进行信息传递, 从而避免了某个字符因 信息过载, 导致信息传递失败, 而出现编码结果 错误的问题, 从而提高了网络模 型的可靠性和准 确性。 权利要求书2页 说明书8页 附图3页 CN 114417856 B 2022.11.04 CN 114417856 B 1.一种文本的稀疏编码方法, 包括: 将待处理的文本进行切词处 理, 以获取初始字符序列; 基于预设的分割方式, 将所述初始字符序列分割为多个字符组及 关键字符, 其中, 每个 所述字符组中包 含一个插 入字符; 基于预设的注意力机制, 将每个所述字符组进行自注意力学习, 以获取每个所述字符 组中每个字符对应的更新后的向量; 将所述关键字符对应的向量与每个所述字符对应的更新后的向量进行自注意力学习, 以获取所述关键 字符对应的更新后的向量; 根据每个所述插入字符对应的更新后的向量及所述关键字符对应的更新后的向量, 确 定所述待处 理的文本对应的编码向量。 2.如权利要求1所述的方法, 其中, 所述基于预设的分割方式, 将所述初始字符序列分 割为多个字符组及关键 字符, 包括: 将所述初始字符序列中指定 字符确定为关键 字符; 将所述初始字符序列中除所述关键字符外的其余字符, 按照预设的组合规则进行组 合, 以获取多个初始字符组; 在每个所述初始字符组中分别插 入预设字符, 以获取多个字符组。 3.如权利要求2所述的方法, 其中, 所述指定字符为以下各项中的任一项: 首字符, 结束 字符, 第奇数个字符。 4.如权利要求2所述的方法, 其中, 在所述将所述初始字符序列中除所述关键字符外的 其余字符, 按照预设的组合 规则进行组合, 以获取多个初始字符组之前, 还 包括: 根据所述初始字符序列中包含的字符数量, 确定所述预设的组合规则和/或所述关键 字符的数量。 5.如权利要求2 ‑4任一所述的方法, 其中, 所述将所述初始字符序列中除所述关键字符 外的其余字符, 按照预设的规则进行组合, 以获取多个初始字符组, 包括: 在所述其余字符的数量与 所述预设的组合规则不匹配的情况下, 利用预设的字符将所 述初始字符序列进行扩展。 6.一种文本的稀疏编码装置, 包括: 切词模块, 用于将待处 理的文本进行切词处 理, 以获取初始字符序列; 分割模块, 用于基于预设的分割方式, 将所述初始字符序列分割为多个字符组及关键 字符, 其中, 每 个所述字符组中包 含一个插 入字符; 学习模块, 用于基于预设的注意力 机制, 将每个所述字符组进行自注意力学习, 以获取 每个所述字符组中每 个字符对应的更新后的向量; 所述学习 模块, 还用于将所述关键字符对应的向量与每个所述字符对应的更新后的向 量进行自注意力学习, 以获取 所述关键 字符对应的更新后的向量; 确定模块, 用于根据每个所述插入字符对应的更新后的向量及所述关键字符对应的更 新后的向量, 确定所述待处 理的文本对应的编码向量。 7.如权利要求6所述的装置, 其中, 所述分割模块, 具体用于: 将所述初始字符序列中指定 字符确定为关键 字符; 将所述初始字符序列中除所述关键字符外的其余字符, 按照预设的组合规则进行组权 利 要 求 书 1/2 页 2 CN 114417856 B 2合, 以获取多个初始字符组; 在每个所述初始字符组中分别插 入预设字符, 以获取多个字符组。 8.如权利要求7所述的装置, 其中, 所述指定字符为以下各项中的任一项: 首字符, 结束 字符, 第奇数个字符。 9.如权利要求7 所述的装置, 其中, 所述分割模块, 还用于: 根据所述初始字符序列中包含的字符数量, 确定所述预设的组合规则和/或所述关键 字符的数量。 10.如权利要求7 ‑9任一所述的装置, 其中, 所述分割模块, 还用于: 在所述其余字符的数量与 所述预设的组合规则不匹配的情况下, 利用预设的字符将所 述初始字符序列进行扩展。 11.一种电子设备, 包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处 理器能够执 行权利要求1 ‑5中任一项所述的方法。 12.一种存储有计算机指令的非瞬时计算机可读存储介质, 其中, 所述计算机指令用于 使所述计算机执 行根据权利要求1 ‑5中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114417856 B 3

.PDF文档 专利 文本的稀疏编码方法、装置及电子设备

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本的稀疏编码方法、装置及电子设备 第 1 页 专利 文本的稀疏编码方法、装置及电子设备 第 2 页 专利 文本的稀疏编码方法、装置及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 20:44:43上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。