说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210773089.X (22)申请日 2022.06.30 (71)申请人 北京有竹居网络技 术有限公司 地址 101299 北京市平谷区林萌 北街13号 信息大厦802室 (72)发明人 章峻珲 鲍吴迪 马泽君  (74)专利代理 机构 北京世辉律师事务所 16 093 专利代理师 马明月 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/151(2020.01) G06F 40/289(2020.01) G06N 20/00(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 用于文本处理的方法、 装置、 设备和存储介 质 (57)摘要 根据本公开的实施例, 提供了用于文本处理 的方法、 装置、 设备和存储介质。 在该方法中, 基 于第一语言的原文本中的多个文本单元生成多 个第一特征表 示, 多个第一特征表 示指示相应文 本单元的语义; 将多个第一特征表 示与第二特征 表示结合以形成特征表示序列, 第二特征表示指 示多个文本单元中的各个文本单元是否为文本 单元组的边界; 以及基于特征表示序列, 生成第 二语言的转换文本。 以此方式, 可 以显著提高文 本转换的准确度和效率。 权利要求书2页 说明书13页 附图7页 CN 115114933 A 2022.09.27 CN 115114933 A 1.一种文本处 理的方法, 包括: 基于第一语言的原文本 中的多个文本单元生成多个第 一特征表示, 所述多个第 一特征 表示指示相应文本单 元的语义; 将所述多个第 一特征表示与第 二特征表示结合以形成特征表示序列, 所述第 二特征表 示指示所述多个文本单 元中的各个文本单 元是否为文本单 元组的边界; 以及 基于所述特 征表示序列, 生成第二语言的转换文本 。 2.根据权利要求1所述的方法, 其中基于所述多个文本单元生成所述多个第一特征表 示包括: 获取所述多个文本单 元各自的向量表示; 将所述向量表示分成多个向量表示组; 以及 针对所述多个向量表示组中的一个向量表示组, 确定所述向量表示组中的各向量表示的注意力权 重, 以及 利用所确定的注意力 权重对所述各向量表示进行加权, 以确定所述各向量表示的所述 第一特征表示。 3.根据权利要求1所述的方法, 其中所述原文本和所述转换文本中都包括与至少一个 预定字符或字符串相对应的至少一个预定标记, 并且所述方法还 包括: 将所述转换文本中的所述至少一个预定标记恢复为所述至少一个预定 字符或字符串。 4.根据权利要求1所述的方法, 其中所述方法是使用非自回归机器学习模型实现的。 5.一种文本处 理的方法, 包括: 获取训练文本对, 所述训练文本对 包括第一语言的原文本和第二语言的目标文本; 利用转换模型, 将所述原文本转换为所述第二语言的转换文本, 包括: 基于所述原文本 中的多个文本单元生成多个第 一特征表示, 所述多个第 一特征表示指 示相应文本单 元的语义, 将所述多个第 一特征表示与第 二特征表示结合形成特征表示序列, 所述第 二特征表示 指示所述多个文本单 元中的各个文本单 元是否为文本单 元组的边界, 以及 基于所述特 征表示序列, 生成所述 转换文本; 以及 至少基于所述 转换文本与所述目标文本之间的差异, 来训练所述 转换模型。 6.根据权利要求5所述的方法, 其中训练所述 转换模型还 包括: 确定与所述原文本和所述目标文本相关联的目标对齐信息; 以及 进一步基于所述转换文本和所述原文本之间的预测对齐信息与所述目标对齐信息之 间的对齐损失, 来训练所述 转换模型。 7.根据权利要求5所述的方法, 其中获取 所述训练文本对 包括: 利用自回归模型, 将所述第 一语言的多个原文本转换成相应的所述第 二语言的多个目 标文本; 基于所述多个原文本和所述多个目标文本生成训练数据集; 以及 从所述训练数据集中获取 所述训练文本对。 8.根据权利要求5所述的方法, 其中获取 所述训练文本对 包括: 将训练数据集中的原文本和目标文本中的多个预定字符或字符串替换为相应的多个 预定标记, 以生成更新后的训练数据集; 以及权 利 要 求 书 1/2 页 2 CN 115114933 A 2从所述更新后的训练数据集中获取 所述训练文本对。 9.根据权利要求5所述的方法, 其中基于所述多个文本单元生成所述多个第一特征表 示包括: 获取所述多个文本单 元相应的多个向量表示; 将所述多个向量表示分成多个向量表示组; 以及 针对所述多个向量表示组中的一个向量表示组, 确定所述向量表示组中的各向量表示的注意力权 重, 以及 利用所确定的注意力 权重对所述各向量表示进行加权, 以确定所述各向量表示的所述 第一特征表示。 10.根据权利要求5所述的方法, 其中所述 转换模型 是非自回归机器学习模型。 11.一种文本处 理的装置, 包括: 特征生成模块, 被配置为基于第 一语言的原文本中的多个文本单元生成多个第 一特征 表示, 所述多个第一特 征表示指示相应文本单 元的语义; 特征结合模块, 被配置为将所述多个第 一特征表示与第 二特征表示结合以形成特征表 示序列, 所述第二特征表示指示所述多个文本单元中的各个文本单元是否为文本单元组的 边界; 以及 转换模块, 被 配置为基于所述特 征表示序列, 生成第二语言的转换文本 。 12.一种文本处 理的装置, 包括: 文本获取模块, 被配置为获取训练文本对, 所述训练文本对包括第一语言的原文本和 第二语言的目标文本; 文本转换模块, 被配置为利用转换模型, 将所述原文本转换为所述第二语言的转换文 本, 所述文本转换模块进一 步被配置为: 基于所述原文本 中的多个文本单元生成多个第 一特征表示, 所述多个第 一特征表示指 示相应文本单 元的语义, 将所述多个第 一特征表示与第 二特征表示结合形成特征表示序列, 所述第 二特征表示 指示所述多个文本单 元中的各个文本单 元是否为文本单 元组的边界, 以及 基于所述特 征表示序列, 生成所述 转换文本; 以及 训练模块, 被配置为至少基于所述转换文本与所述目标文本之间的差异, 来训练所述 转换模型。 13.一种电子设备, 包括: 至少一个处 理单元; 以及 至少一个存储器, 所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于 由所述至少一个处理单元执行的指 令, 所述指 令在由所述至少一个处理单元执行时使 所述 设备执行根据权利要求1至4或者权利要求5 至10中任一项所述的方法。 14.一种计算机可读存储介质, 其上存储有计算机程序, 所述程序被处理器执行时实现 根据权利要求1至4或者权利要求5 至10中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115114933 A 3

.PDF文档 专利 用于文本处理的方法、装置、设备和存储介质

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 用于文本处理的方法、装置、设备和存储介质 第 1 页 专利 用于文本处理的方法、装置、设备和存储介质 第 2 页 专利 用于文本处理的方法、装置、设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:14:07上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。