专利基于注意力机制优化的文本处理方法、网络模型训练方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210555349.6 (22)申请日 2022.05.19 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人李敏　曾锦乐　吴志华　蓝翔　邢冯　刘益群　 (74)专利代理机构中科专利商标代理有限责任公司 11021 专利代理师纪雯 (51)Int.Cl. G06F 40/211(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于注意力机制优化的文本处理方法、网络模型训练方法 (57)摘要本公开提供了一种基于注意力机制优化的文本处理方法、网络模型训练方法及装置、设备、介质和产品，涉及人工智能技术领域，具体为自然语言处理和深度学习技术领域。具体实现方案包括：对待处理文本中的M个文本语句进行划分，得到N个语句分组，其中， N为大于0的整数， M为不小于N的整数， N个语句分组的各语句分组中包括至少一个文本语句；确定各语句分组中的至少一个文本语句的注意力分布特征；以及基于各语句分组的注意力分布特征进行并行运算，得到针对待处理文本的输出结果。权利要求书4页说明书12页附图5页 CN 114742035 A 2022.07.12 CN 114742035 A 1.一种基于注意力机制优化的文本处理方法，包括：对待处理文本中的M个文本语句进行划分，得到N个语句分组，其中， N为大于0的整数， M 为不小于N的整数，所述 N个语句分组的各所述语句分组中包括至少一个文本语句；确定各所述语句分组中的至少一个文本语句的注意力分布特征；以及基于各所述语句分组的所述注意力分布特征进行并行运算，得到针对所述待处理文本的输出结果。 2.根据权利要求1所述的方法，其中，所述对待处理文本中的M个文本语句进行划分，得到N个语句分组，包括：根据所述M个文本语句中的各所述文本语句的字符序列长度，对所述M个文本语句进行划分，得到所述 N个语句分组，其中，各所述语句分组分别对应预设的字符序列长度区间。 3.根据权利要求1所述的方法，其中，所述确定各所述语句分组中的至少一个文本语句的注意力分布特征，包括：确定与各所述语句分组匹配的注意力运算函数；以及针对目标语句分组，利用与所述目标语句分组匹配的注意力运算函数，根据所述目标语句分组中的各所述文本语句的字符特征，确定各所述文本语句中的字符之间的注意力分布特征，其中，所述目标语句分组为所述 N个语句分组中的任意语句分组。 4.根据权利要求3所述的方法，其中，所述确定与各所述语句分组匹配的注意力运算函数，包括：根据各所述语句分组所对应的字符序列长度区间，确定与所述字符序列长度区间匹配的核函数，以作为所述注意力运算函数，以及所述利用与所述目标语句分组匹配的注意力运算函数，根据所述目标语句分组中的各所述文本语句的字符特征，确定各所述文本语句中的字符之间的注意力分布特征，包括：根据与所述目标语句分组匹配的目标核函数，确定用于执行注意力分布运算的目标线程块；利用所述目标线程块中的至少一个线程，并行执行所述目标核函数，以根据所述目标语句分组中的各所述文本语句的字符特征，得到所述注意力分布特征。 5.根据权利要求3所述的方法，还包括：基于预设监听事件，确定监听对象函数是否执行完成；以及所述利用与所述目标语句分组匹配的注意力运算函数，根据所述目标语句分组中的各所述文本语句的字符特征，确定各所述文本语句中的字符之间的注意力分布特征，包括：响应于所述监听对象函数执行完成，利用所述注意力运算函数，根据所述目标语句分组中的各所述文本语句的字符特征，确定所述注意力分布特征，其中，所述监听对象函数包括执行次序位于所述注意力运算函数之前的运算函数。 6.一种基于注意力机制优化的网络模型训练方法，包括：对待处理样本中的M个样本语句进行划分，得到N个样本语句分组，其中， N为大于0的整数， M为不小于N的整数，所述N个样本语句分组的各所述样本语句分组中包括至少一个样本语句；权　利　要　求　书 1/4 页 2 CN 114742035 A 2将所述N个样本语句分组作为待训练的目标网络模型的输入数据，得到各所述样本语句分组中的至少一个样本语句的注意力分布特征；基于各所述样本语句分组的所述注意力分布特征进行并行运算，得到针对所述待处理样本的输出结果；以及根据所述输出结果和预设结果标签，调整所述待训练的目标网络模型的模型参数，得到经训练的目标网络模型。 7.根据权利要求6所述的方法，其中，所述对待处理样本中的M个样本语句进行划分，得到N个样本语句分组，包括：根据所述M个样本语句中的各所述样本语句的字符序列长度，对所述M个样本语句进行划分，得到所述 N个样本语句分组，其中，各所述样本语句分组分别对应预设的字符序列长度区间。 8.根据权利要求6所述的方法，其中，所述将所述N个样本语句分组作为待训练的目标网络模型的输入数据，得到各所述样本语句分组中的至少一个样本语句的注意力分布特征，包括：确定与各所述样本语句分组匹配的注意力运算函数；针对目标样本语句分组，通过所述待训练的目标网络模型，调用与所述目标样本语句分组匹配的注意力运算函数；以及利用所述注意力运算函数，根据所述目标样本语句分组中的各所述样本语句的字符特征，确定各所述样本语句中的字符之间的注意力分布特征，其中，所述目标样本语句分组为所述 N个样本语句分组中的任意样本语句分组。 9.一种基于注意力机制优化的文本处理装置，包括：第一处理模块，用于对待处理文本中的M个文本语句进行划分，得到N个语句分组，其中， N为大于0的整数， M为不小于N的整数，所述N个语句分组的各所述语句分组中包括至少一个文本语句；第二处理模块，用于确定各所述语句分组中的至少一个文本语句的注意力分布特征；以及第三处理模块，用于基于各所述语句分组的所述注意力分布特征进行并行运算，得到针对所述待处理文本的输出结果。 10.根据权利要求9所述的装置，其中，所述第一处理模块包括：第一处理子模块，用于根据所述M个文本语句中的各所述文本语句的字符序列长度，对所述M个文本语句进行划分，得到所述 N个语句分组，其中，各所述语句分组分别对应预设的字符序列长度区间。 11.根据权利要求9所述的装置，其中，所述第二处理模块包括：第二处理子模块，用于确定与各所述语句分组匹配的注意力运算函数；以及第三处理子模块，用于针对目标语句分组，利用与所述目标语句分组匹配的注意力运算函数，根据所述目标语句分组中的各所述文本语句的字符特征，确定各所述文本语句中的字符之间的注意力分布特征，其中，所述目标语句分组为所述 N个语句分组中的任意语句分组。 12.根据权利要求1 1所述的装置，其中，所述第二处理子模块包括：权　利　要　求　书 2/4 页 3 CN 114742035 A 3

专利 基于注意力机制优化的文本处理方法、网络模型训练方法

专利基于注意力机制优化的文本处理方法、网络模型训练方法