专利用于文本处理的方法、装置、设备和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210773089.X (22)申请日 2022.06.30 (71)申请人北京有竹居网络技术有限公司地址 101299 北京市平谷区林萌北街13号信息大厦802室 (72)发明人章峻珲　鲍吴迪　马泽君　 (74)专利代理机构北京世辉律师事务所 16 093 专利代理师马明月 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/151(2020.01) G06F 40/289(2020.01) G06N 20/00(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称用于文本处理的方法、装置、设备和存储介质 (57)摘要根据本公开的实施例，提供了用于文本处理的方法、装置、设备和存储介质。在该方法中，基于第一语言的原文本中的多个文本单元生成多个第一特征表示，多个第一特征表示指示相应文本单元的语义；将多个第一特征表示与第二特征表示结合以形成特征表示序列，第二特征表示指示多个文本单元中的各个文本单元是否为文本单元组的边界；以及基于特征表示序列，生成第二语言的转换文本。以此方式，可以显著提高文本转换的准确度和效率。权利要求书2页说明书13页附图7页 CN 115114933 A 2022.09.27 CN 115114933 A 1.一种文本处理的方法，包括：基于第一语言的原文本中的多个文本单元生成多个第一特征表示，所述多个第一特征表示指示相应文本单元的语义；将所述多个第一特征表示与第二特征表示结合以形成特征表示序列，所述第二特征表示指示所述多个文本单元中的各个文本单元是否为文本单元组的边界；以及基于所述特征表示序列，生成第二语言的转换文本。 2.根据权利要求1所述的方法，其中基于所述多个文本单元生成所述多个第一特征表示包括：获取所述多个文本单元各自的向量表示；将所述向量表示分成多个向量表示组；以及针对所述多个向量表示组中的一个向量表示组，确定所述向量表示组中的各向量表示的注意力权重，以及利用所确定的注意力权重对所述各向量表示进行加权，以确定所述各向量表示的所述第一特征表示。 3.根据权利要求1所述的方法，其中所述原文本和所述转换文本中都包括与至少一个预定字符或字符串相对应的至少一个预定标记，并且所述方法还包括：将所述转换文本中的所述至少一个预定标记恢复为所述至少一个预定字符或字符串。 4.根据权利要求1所述的方法，其中所述方法是使用非自回归机器学习模型实现的。 5.一种文本处理的方法，包括：获取训练文本对，所述训练文本对包括第一语言的原文本和第二语言的目标文本；利用转换模型，将所述原文本转换为所述第二语言的转换文本，包括：基于所述原文本中的多个文本单元生成多个第一特征表示，所述多个第一特征表示指示相应文本单元的语义，将所述多个第一特征表示与第二特征表示结合形成特征表示序列，所述第二特征表示指示所述多个文本单元中的各个文本单元是否为文本单元组的边界，以及基于所述特征表示序列，生成所述转换文本；以及至少基于所述转换文本与所述目标文本之间的差异，来训练所述转换模型。 6.根据权利要求5所述的方法，其中训练所述转换模型还包括：确定与所述原文本和所述目标文本相关联的目标对齐信息；以及进一步基于所述转换文本和所述原文本之间的预测对齐信息与所述目标对齐信息之间的对齐损失，来训练所述转换模型。 7.根据权利要求5所述的方法，其中获取所述训练文本对包括：利用自回归模型，将所述第一语言的多个原文本转换成相应的所述第二语言的多个目标文本；基于所述多个原文本和所述多个目标文本生成训练数据集；以及从所述训练数据集中获取所述训练文本对。 8.根据权利要求5所述的方法，其中获取所述训练文本对包括：将训练数据集中的原文本和目标文本中的多个预定字符或字符串替换为相应的多个预定标记，以生成更新后的训练数据集；以及权　利　要　求　书 1/2 页 2 CN 115114933 A 2从所述更新后的训练数据集中获取所述训练文本对。 9.根据权利要求5所述的方法，其中基于所述多个文本单元生成所述多个第一特征表示包括：获取所述多个文本单元相应的多个向量表示；将所述多个向量表示分成多个向量表示组；以及针对所述多个向量表示组中的一个向量表示组，确定所述向量表示组中的各向量表示的注意力权重，以及利用所确定的注意力权重对所述各向量表示进行加权，以确定所述各向量表示的所述第一特征表示。 10.根据权利要求5所述的方法，其中所述转换模型是非自回归机器学习模型。 11.一种文本处理的装置，包括：特征生成模块，被配置为基于第一语言的原文本中的多个文本单元生成多个第一特征表示，所述多个第一特征表示指示相应文本单元的语义；特征结合模块，被配置为将所述多个第一特征表示与第二特征表示结合以形成特征表示序列，所述第二特征表示指示所述多个文本单元中的各个文本单元是否为文本单元组的边界；以及转换模块，被配置为基于所述特征表示序列，生成第二语言的转换文本。 12.一种文本处理的装置，包括：文本获取模块，被配置为获取训练文本对，所述训练文本对包括第一语言的原文本和第二语言的目标文本；文本转换模块，被配置为利用转换模型，将所述原文本转换为所述第二语言的转换文本，所述文本转换模块进一步被配置为：基于所述原文本中的多个文本单元生成多个第一特征表示，所述多个第一特征表示指示相应文本单元的语义，将所述多个第一特征表示与第二特征表示结合形成特征表示序列，所述第二特征表示指示所述多个文本单元中的各个文本单元是否为文本单元组的边界，以及基于所述特征表示序列，生成所述转换文本；以及训练模块，被配置为至少基于所述转换文本与所述目标文本之间的差异，来训练所述转换模型。 13.一种电子设备，包括：至少一个处理单元；以及至少一个存储器，所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令，所述指令在由所述至少一个处理单元执行时使所述设备执行根据权利要求1至4或者权利要求5 至10中任一项所述的方法。 14.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现根据权利要求1至4或者权利要求5 至10中任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 115114933 A 3

专利 用于文本处理的方法、装置、设备和存储介质

专利用于文本处理的方法、装置、设备和存储介质