说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210630816.7 (22)申请日 2022.06.06 (65)同一申请的已公布的文献号 申请公布号 CN 114706987 A (43)申请公布日 2022.07.05 (73)专利权人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 朱秀红 张伟 曹训 黄泽谦  (74)专利代理 机构 华进联合专利商标代理有限 公司 44224 专利代理师 董慧 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 114328807 A,202 2.04.12 CN 10759019 2 A,2018.01.16 CN 110609897 A,2019.12.24 CN 1042816 35 A,2015.01.14 CN 114357151 A,202 2.04.15 审查员 陈丽娜 (54)发明名称 文本类目预测方法、 装置、 设备、 存储介质和 程序产品 (57)摘要 本申请涉及一种文本类目预测方法、 装置、 计算机设备、 存储介质和计算机程序产品。 该方 法涉及人工智能的自动文本分类技术, 该方法包 括: 通过训练好的文本类目预测模型的编码层, 根据短文本中每个字的语义向量进行语义编码, 得到短文本的语义编码向量; 通过文本类目预测 模型的解码层, 根据语义编码向量进行首次解码 得到首个解码隐藏向量 以及基于首个解码隐藏 向量获得短文本对应的首个类目之后, 继续根据 前次解码所得到的解码隐藏向量与类目进行当 次解码, 得到当次解码的解码隐藏向量与类目, 直至结束解码; 将解码得到的多个类目按层级进 行组合, 获得短文本对应的类目路径, 能够改善 多层级类目路径的父子节点一致性问题, 准确预 测文本的类目路径。 权利要求书7页 说明书27页 附图11页 CN 114706987 B 2022.08.19 CN 114706987 B 1.一种文本类目预测方法, 其特 征在于, 所述方法包括: 获取待进行多层级类目预测的短文本; 通过训练好的文本类目预测模型的编码层, 按照所述短文本 中每个字的先后顺序依次 处理, 将前次的运算结果和当前字的语义向量作为当次运算的输入, 得到对应当前字的编 码隐藏向量, 直至处理到所述短文本中的末位字时, 将得到的对应所述末位字的编码隐藏 向量作为所述短文本的语义编码向量; 通过所述文本类目预测模型的解码层, 根据 所述语义编码向量与查询到的文本起始标 记符号对应的嵌入向量进行首次解码得到首个解码隐藏向量以及基于所述首个解码隐藏 向量获得所述短文本对应的首个类目之后, 继续根据前次解码所得到的解码隐藏向量与查 询到的前次解码得到的类目所对应的嵌入向量, 进行当次解码, 得到当次解码的解码隐藏 向量, 基于所述当次解码的解码隐藏向量获得所述短文本当次解码对应的类目, 直至解码 次数达到预设阈值或当次解码得到文本结束标记符号时, 结束解码; 将解码得到的多个 类目按层级 进行组合, 获得 所述短文本对应的类目路径。 2.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 将所述短文本 输入所述文本类目预测模型的编码层; 通过所述编码层的字编码网络, 查询字映射表获得所述短文本中每个字的字标识, 将 分类符号以及所述每个字的字标识编 码为相应的字向量, 所述每个字的字向量用于表征相 应字的语义信息, 所述分类符号对应的字向量用于表征 所述短文本的全局语义信息; 以及 将所述短文本 中每个字的字向量分别与 所述分类符号的字向量拼接, 得到所述每个字 在所述短文本中的语义向量。 3.根据权利要求1所述的方法, 其特征在于, 所述通过训练好的文本类目预测模型的编 码层, 按照所述短文本中每个字的先后顺序依 次处理, 将前次的运算结果和当前字的语义 向量作为当次运算的输入, 得到对应当前字的编码隐藏向量, 直至处理到所述短文本中的 末位字时, 将得到的对应所述末位字的编码隐藏向量作为所述短文本的语义编码向量, 包 括: 将所述短文本中每 个字的语义向量, 输入所述编码层的全局编码网络; 在所述全局编码网络的隐藏层中, 按照所述短文本中每个字的先后顺序, 对相应的语 义向量进行依 次处理, 依 次得到所述全局编码网络对应每个字的编码隐藏向量, 直至处理 到所述短文本中的末位字时, 将得到的所述全局编 码网络对应所述末位字的编 码隐藏向量 作为所述短文本的语义编码向量。 4.根据权利要求3所述的方法, 其特征在于, 所述全局编码网络为全局前向编码网络, 所述在所述全局编码网络的隐藏层中, 按照所述短文本中每个字的先后顺序, 对相应的语 义向量进行依 次处理, 依 次得到所述全局编码网络对应每个字的编码隐藏向量, 直至处理 到所述短文本中的末位字时, 将得到的所述全局编 码网络对应所述末位字的编 码隐藏向量 作为所述短文本的语义编码向量, 包括: 在所述全局前向编码网络的隐藏层中, 按照所述短文本中每个字的先后顺序, 顺序地 对所述每个字相应的语义向量进 行依次处理, 依次得到所述全局前向编码网络对应每个字 的前向编码隐藏向量, 直至处理到所述短文本中的末尾字时, 将得到的所述全局前向编码 网络对应所述末尾字的前向编码隐藏向量作为所述短文本的语义编码向量。权 利 要 求 书 1/7 页 2 CN 114706987 B 25.根据权利要求3所述的方法, 其特征在于, 所述全局编码网络为全局后向编码网络, 所述在所述全局编码网络的隐藏层中, 按照所述短文本中每个字的先后顺序, 对相应的语 义向量进行依 次处理, 依 次得到所述全局编码网络对应每个字的编码隐藏向量, 直至处理 到所述短文本中的末位字时, 将得到的所述全局编 码网络对应所述末位字的编 码隐藏向量 作为所述短文本的语义编码向量, 包括: 在所述全局后向编码网络的隐藏层中, 按照所述短文本中每个字的先后顺序, 逆序地 对所述每个字相应的语义向量进 行依次处理, 依次得到所述全局后向编码网络对应每个字 的后向编码隐藏向量, 直至处理到所述短文本中的首个字时, 将得到的所述全局后向编码 网络对应所述首个字的后向编码隐藏向量作为所述短文本的语义编码向量。 6.根据权利要求3所述的方法, 其特征在于, 所述全局编码网络为全局双 向编码网络, 所述在所述全局编码网络的隐藏层中, 按照所述短文本中每个字的先后顺序, 对相应的语 义向量进行依 次处理, 依 次得到所述全局编码网络对应每个字的隐藏向量, 直至处理到所 述短文本中的末位字时, 将得到的所述全局编 码网络对应所述末位字的 隐藏向量作为所述 短文本的语义编码向量, 包括: 在所述全局双 向编码网络的隐藏层中, 按照所述短文本中每个字的先后顺序, 顺序地 对所述每个字相应的语义向量进 行依次处理, 依次得到所述全局双向编码网络对应每个字 的前向编码隐藏向量, 直至处理到所述短文本中的末尾字时, 得到所述全局双向编码网络 对应所述末尾字的前向编码隐藏向量; 在所述全局双 向编码网络的隐藏层中, 按照所述短文本中每个字的先后顺序, 逆序地 对所述每个字相应的语义向量进 行依次处理, 依次得到所述全局双向编码网络对应每个字 的后向编码隐藏向量, 直至处理到所述短文本中的首个字时, 得到所述全局双向编码网络 对应所述首个字的后向编码隐藏向量; 根据所述末尾字的前向编码隐藏向量与 所述首个字的后向编码隐藏向量, 得到所述短 文本的语义编码向量。 7.根据权利要求6所述的方法, 其特征在于, 所述按照所述短文本中每个字的先后顺 序, 顺序地对所述每个字相 应的语义向量进行依 次处理, 依 次得到所述全局双向编码网络 对应每个字的前向编码隐藏向量, 包括: 按照所述短文本 中每个字的先后 顺序, 顺序地将每个字的语义向量作为所述全局双向 编码网络的隐藏层当前处 理的语义向量; 在当前处理的语义向量是所述短文本 中首个字对应的语义向量 时, 通过所述隐藏层根 据初始的前向编码隐藏向量与所述首个字对应的语义向量, 得到所述首个字对应的前向编 码隐藏向量; 在当前处理的语义向量不是所述短文本 中首个字对应的语义向量 时, 通过所述隐藏层 根据前次处理得到的前向编 码隐藏向量与当前 处理的语义向量, 得到 当前处理得到的前向 编码隐藏向量。 8.根据权利要求6所述的方法, 其特征在于, 所述按照所述短文本中每个字的先后顺 序, 逆序地对所述每个字相 应的语义向量进行依 次处理, 依 次得到所述全局双向编码网络 对应每个字的后向编码隐藏向量, 包括: 按照所述短文本 中每个字的先后 顺序, 逆序地将每个字的语义向量作为所述全局双向权 利 要 求 书 2/7 页 3 CN 114706987 B 3

.PDF文档 专利 文本类目预测方法、装置、设备、存储介质和程序产品

文档预览
中文文档 46 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共46页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本类目预测方法、装置、设备、存储介质和程序产品 第 1 页 专利 文本类目预测方法、装置、设备、存储介质和程序产品 第 2 页 专利 文本类目预测方法、装置、设备、存储介质和程序产品 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:13:36上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。