说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210830826.5 (22)申请日 2022.07.15 (71)申请人 深圳前海微众 银行股份有限公司 地址 518000 广东省深圳市前海深港合作 区前湾一路1号A栋201室 (入驻深圳市 前海商务秘书 有限公司) (72)发明人 骆家焕 康焱 何元钦  (74)专利代理 机构 深圳市世纪恒程知识产权代 理事务所 4 4287 专利代理师 刘瑞花 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/126(2020.01) G06F 16/33(2019.01) G06F 16/34(2019.01)G06F 40/40(2020.01) G06N 20/00(2019.01) (54)发明名称 文本生成方法、 装置、 设备、 存储介质及程序 产品 (57)摘要 本发明公开了一种文本生成方法、 装置、 设 备、 存储介质及程序产品, 所述方法包括: 将输入 文本中的各个字分别作为目标字, 从输入文本中 提取包括目标字在内的顺次连接的多个字组成 的词语, 作为目标字对应的多元组; 获取目标字 的第一词嵌入表示和位置嵌入表 示, 以及获取目 标字对应的多元组的第二词嵌入表 示; 根据目标 字对应的第一词嵌入表示、 位置嵌入表示和第二 词嵌入表示计算得到目标字对应的综合嵌入表 示; 对输入文本中各个字对应的综合嵌入表示进 行编码得到第一编码语义特征, 对第一编码语义 特征进行解码得到与输入文本对应的目标输出 文本。 本发 明使得生成的目标输出文本的语义更 加完整, 提高了生成文本的准确度。 权利要求书2页 说明书14页 附图1页 CN 115169356 A 2022.10.11 CN 115169356 A 1.一种文本生成方法, 其特 征在于, 所述文本生成方法包括以下步骤: 将输入文本 中的各个字分别作为目标字, 从所述输入文本 中提取包括所述目标字在内 的顺次连接的多个字组成的词语, 作为所述目标字对应的多元组; 获取所述目标字的第 一词嵌入表示和位置嵌入表示, 以及获取所述目标字对应的所述 多元组的第二词嵌入表示; 根据所述目标字对应的所述第 一词嵌入表示、 所述位置嵌入表示和所述第 二词嵌入表 示计算得到所述目标字对应的综合嵌入表示; 对所述输入文本 中各个字对应的所述综合嵌入表示进行编码得到第 一编码语义特征, 对所述第一编码语义特 征进行解码得到与所述输入文本对应的目标输出文本 。 2.如权利要求1所述的文本生成方法, 其特征在于, 所述从所述输入文本 中提取包括所 述目标字在内的顺次连接的多个字组成的词语, 作为所述目标字对应的多元组的步骤包 括: 在所述输入文本 中从所述目标字开始, 往后 提取包括所述目标字在内的顺 次连接的预 设数量的字组成词语, 作为所述目标字对应的多 元组, 其中, 当在所述输入文本中从所述目 标字开始往后可选的包括所述目标字在内的字数达不到所述预设数量时, 通过往前提取以 补齐所缺的字数。 3.如权利要求1所述的文本生成方法, 其特征在于, 所述第一词嵌入表示、 所述位置嵌 入表示和所述第二词嵌入表示 为维度相同的向量; 所述根据 所述目标字对应的所述第 一词嵌入表示、 所述位置嵌入表示和所述第 二词嵌 入表示计算得到所述目标字对应的综合嵌入表示的步骤 包括: 将所述目标字对应的所述第 一词嵌入表示、 所述位置嵌入表示和所述第 二词嵌入表示 进行向量相加, 得到所述目标字对应的综合嵌入表示。 4.如权利要求1至3任一项所述的文本生成方法, 其特征在于, 所述对所述第一编码语 义特征进行解码得到与所述输入文本对应的目标输出文本的步骤 包括: 将所述目标输出文本中的各个字分别作为待预测字, 获取所述待预测字的初始解码特 征; 基于所述初始解码特征与 所述输入文本 中各个字对应的所述第 一编码语义特征, 分别 计算所述待预测字与所述输入文本中各个字之间的第一注意力系数; 分别获取 所述输入文本中各个字对应的所述多元组的第二编码语义特 征; 基于所述初始解码特征与 各所述多元组对应的所述第 二编码语义特征, 分别计算所述 待预测字与各 所述多元组之间的第二注意力系数; 将所述多元组对应的所述第二注意力系数分别叠加至所述多元组所包含的各个字的 所述第一注意力系数中, 得到所述待 预测字分别与所述输入文本中各个字之间的第三注意 力系数; 采用所述输入文本中各个字对应的所述第三注意力系数对所述输入文本中各个字的 所述第一编码语义特 征进行特征融合, 得到所述待预测字的更新 解码特征; 基于所述待预测字的所述更新解码特征解码得到所述待预测字, 以得到所述目标输出 文本。 5.如权利要求4所述的文本生成方法, 其特征在于, 获取所述目标字对应的所述多元组权 利 要 求 书 1/2 页 2 CN 115169356 A 2的第二编码语义特 征的步骤 包括: 根据所述目标字对应的所述多元组所包括的各个字的所述第 一编码语义特征, 计算得 到所述多元组的第二编码语义特 征。 6.如权利要求4所述的文本生成方法, 其特征在于, 所述将所述多元组对应的所述第 二 注意力系数分别叠加至所述多 元组所包含的各个字的所述第一注意力系数中, 得到所述待 预测字分别与所述输入文本中各个字之间的第三注意力系数的步骤 包括: 将包含所述目标字的各个所述多元组对应的第 二注意力系数进行平均, 得到所述目标 字对应的第四注意力系数; 将所述目标字对应的所述第 一注意力系数和所述第四注意力系数相加, 得到所述目标 字对应的第五注意力系数; 将所述输入文本 中各个字对应的所述第五注意力系数进行归一化处理, 得到所述待预 测字分别与所述输入文本中各个字之间的第三注意力系数。 7.如权利要求4所述的文本生成方法, 其特征在于, 所述采用所述输入文本 中各个字对 应的所述第三注意力系数对所述输入文本中各个字的所述第一编码语义特征进行特征融 合, 得到所述待预测字的更新 解码特征的步骤 包括: 采用所述输入文本 中各个字对应的所述第 三注意力系数作为权重, 对所述输入文本中 各个字的所述第一编码语义特 征进行加权求和, 得到所述待预测字的更新 解码特征。 8.一种文本生成装置, 其特 征在于, 所述文本生成装置包括: 提取模块, 用于将输入文本中的各个字分别作为目标字, 从所述输入文本中提取包括 所述目标字在内的顺次连接的多个字组成的词语, 作为所述目标字对应的多元组; 获取模块, 用于获取所述目标字的第一词嵌入表示和位置嵌入表示, 以及获取所述目 标字对应的所述多元组的第二词嵌入表示; 计算模块, 用于根据所述目标字对应的所述第一词嵌入表示、 所述位置嵌入表示和所 述第二词嵌入表示计算得到所述目标字对应的综合嵌入表示; 生成模块, 用于对所述输入文本 中各个字对应的所述综合嵌入表示进行编码得到第 一 编码语义特征, 对所述第一编 码语义特征进 行解码得到与所述输入文本对应的目标输出文 本。 9.一种文本生成设备, 其特征在于, 所述文本生成设备包括: 存储器、 处理器及存储在 所述存储器上并可在所述处理器上运行的文本生成程序, 所述文本生成程序被所述处理器 执行时实现如权利要求1至7中任一项所述的文本生成方法的步骤。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有文本生 成程序, 所述文本生成程序被处理器执行时实现如权利要求 1至7中任一项所述的文本生成 方法的步骤。 11.一种计算机程序产品, 包括计算机程序, 其特征在于, 所述计算机程序被处理器执 行时实现如权利要求1至7中任一项所述的文本生成方法的步骤。权 利 要 求 书 2/2 页 3 CN 115169356 A 3

.PDF文档 专利 文本生成方法、装置、设备、存储介质及程序产品

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本生成方法、装置、设备、存储介质及程序产品 第 1 页 专利 文本生成方法、装置、设备、存储介质及程序产品 第 2 页 专利 文本生成方法、装置、设备、存储介质及程序产品 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:13:31上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。