说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210555349.6 (22)申请日 2022.05.19 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 李敏 曾锦乐 吴志华 蓝翔  邢冯 刘益群  (74)专利代理 机构 中科专利商标代理有限责任 公司 11021 专利代理师 纪雯 (51)Int.Cl. G06F 40/211(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于注意力机制优化的文本处理方法、 网络 模型训练方法 (57)摘要 本公开提供了一种基于注意力机制优化的 文本处理方法、 网络模型训练方法及装置、 设备、 介质和产品, 涉及人工智 能技术领域, 具体为自 然语言处理和深度学习技术领域。 具体实现方案 包括: 对待处理文本中的M个文本语句进行划分, 得到N个语句分 组, 其中, N为大于0的整数, M为不 小于N的整数, N个语句分组的各语句分组 中包括 至少一个文本语句; 确定各语句分组中的至少一 个文本语句的注意力分布特征; 以及基于各语句 分组的注 意力分布特征进行并行运算, 得到针对 待处理文本的输出 结果。 权利要求书4页 说明书12页 附图5页 CN 114742035 A 2022.07.12 CN 114742035 A 1.一种基于注意力机制优化的文本处 理方法, 包括: 对待处理文本中的M个文本语句进行划分, 得到N个语句分组, 其中, N为大于0的整数, M 为不小于N的整数, 所述 N个语句分组的各 所述语句分组中包括至少一个文本语句; 确定各所述语句分组中的至少一个文本语句的注意力分布特 征; 以及 基于各所述语句分组 的所述注意力分布特征进行并行运算, 得到针对所述待处理文本 的输出结果。 2.根据权利要求1所述的方法, 其中, 所述对待处理文本 中的M个文本语句进行划分, 得 到N个语句分组, 包括: 根据所述M个文本语句中的各所述文本语句的字符序列长度, 对所述M个文本语句进行 划分, 得到所述 N个语句分组, 其中, 各所述语句分组分别对应预设的字符序列长度区间。 3.根据权利要求1所述的方法, 其中, 所述确定各所述语句分组中的至少一个文本语句 的注意力分布特 征, 包括: 确定与各 所述语句分组匹配的注意力运 算函数; 以及 针对目标语句分组, 利用与所述目标语句分组匹配的注意力运算函数, 根据所述目标 语句分组中的各所述文本语句的字符特征, 确定各所述文本语句中的字符之间的注意力分 布特征, 其中, 所述目标语句分组为所述 N个语句分组中的任意语句分组。 4.根据权利要求3所述的方法, 其中, 所述确定与各 所述语句分组匹配的注意力运 算函数, 包括: 根据各所述语句分组所对应的字符序列长度区间, 确定与所述字符序列长度区间匹配 的核函数, 以作为所述注意力运 算函数, 以及 所述利用与 所述目标语句分组匹配的注意力运算函数, 根据所述目标语句分组中的各 所述文本语句的字符特 征, 确定各 所述文本语句中的字符 之间的注意力分布特 征, 包括: 根据与所述目标语句分组匹配的目标核函数, 确定用于执行注意力分布运算的目标线 程块; 利用所述目标线程块中的至少一个线程, 并行执行所述目标核函数, 以根据所述目标 语句分组中的各 所述文本语句的字符特 征, 得到所述注意力分布特 征。 5.根据权利要求3所述的方法, 还 包括: 基于预设监听事 件, 确定监听对象函数 是否执行完成; 以及 所述利用与 所述目标语句分组匹配的注意力运算函数, 根据所述目标语句分组中的各 所述文本语句的字符特 征, 确定各 所述文本语句中的字符 之间的注意力分布特 征, 包括: 响应于所述监听对象函数执行完成, 利用所述注意力运算函数, 根据所述目标语句分 组中的各 所述文本语句的字符特 征, 确定所述注意力分布特 征, 其中, 所述 监听对象函数包括执 行次序位于所述注意力运 算函数之前的运 算函数。 6.一种基于注意力机制优化的网络模型训练方法, 包括: 对待处理样本中的M个样本语句进行划分, 得到N个样本语句分组, 其中, N为大于0的整 数, M为不小于N的整 数, 所述N个样 本语句分组的各所述样 本语句分组中包括至少一个样本 语句;权 利 要 求 书 1/4 页 2 CN 114742035 A 2将所述N个样本语句分组作为待训练的目标网络模型的输入数据, 得到各所述样本语 句分组中的至少一个样本语句的注意力分布特 征; 基于各所述样本语句分组的所述注意力分布特征进行并行运算, 得到针对所述待处理 样本的输出 结果; 以及 根据所述输出结果和预设结果标签, 调整所述待训练的目标网络模型的模型参数, 得 到经训练的目标网络模型。 7.根据权利要求6所述的方法, 其中, 所述对待处理样本 中的M个样本语句进行划分, 得 到N个样本语句分组, 包括: 根据所述M个样本语句中的各所述样本语句的字符序列长度, 对所述M个样本语句进行 划分, 得到所述 N个样本语句分组, 其中, 各所述样本语句分组分别对应预设的字符序列长度区间。 8.根据权利要求6所述的方法, 其中, 所述将所述N个样本语句分组作为待训练的目标 网络模型的输入数据, 得到各所述样本语句分组中的至少一个样本语句的注意力分布特 征, 包括: 确定与各 所述样本语句分组匹配的注意力运 算函数; 针对目标样本语句分组, 通过所述待训练的目标网络模型, 调用与所述目标样本语句 分组匹配的注意力运 算函数; 以及 利用所述注意力运算函数, 根据所述目标样本语句分组中的各所述样本语句的字符特 征, 确定各 所述样本语句中的字符 之间的注意力分布特 征, 其中, 所述目标样本语句分组为所述 N个样本语句分组中的任意样本语句分组。 9.一种基于注意力机制优化的文本处 理装置, 包括: 第一处理模块, 用于对待处理文本中的M个文本语句进行划分, 得到N个语句分组, 其 中, N为大于0的整数, M为不小于N的整数, 所述N个语句分组的各所述语句分组中包括至少 一个文本语句; 第二处理模块, 用于确定各所述语句分组中的至少一个文本语句的注意力分布特征; 以及 第三处理模块, 用于基于各所述语句分组的所述注意力分布特征进行并行运算, 得到 针对所述待处 理文本的输出 结果。 10.根据权利要求9所述的装置, 其中, 所述第一处 理模块包括: 第一处理子模块, 用于根据 所述M个文本语句中的各所述文本语句的字符序列长度, 对 所述M个文本语句进行划分, 得到所述 N个语句分组, 其中, 各所述语句分组分别对应预设的字符序列长度区间。 11.根据权利要求9所述的装置, 其中, 所述第二处 理模块包括: 第二处理子模块, 用于确定与各 所述语句分组匹配的注意力运 算函数; 以及 第三处理子模块, 用于针对目标语句分组, 利用与所述目标语句分组匹配的注意力运 算函数, 根据所述 目标语句分组中的各所述文本语句的字符特征, 确定各所述文本语句中 的字符之间的注意力分布特 征, 其中, 所述目标语句分组为所述 N个语句分组中的任意语句分组。 12.根据权利要求1 1所述的装置, 其中, 所述第二处 理子模块包括:权 利 要 求 书 2/4 页 3 CN 114742035 A 3

.PDF文档 专利 基于注意力机制优化的文本处理方法、网络模型训练方法

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于注意力机制优化的文本处理方法、网络模型训练方法 第 1 页 专利 基于注意力机制优化的文本处理方法、网络模型训练方法 第 2 页 专利 基于注意力机制优化的文本处理方法、网络模型训练方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:11:53上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。