说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202111622743.9 (22)申请日 2021.12.28 (65)同一申请的已公布的文献号 申请公布号 CN 114357974 A (43)申请公布日 2022.04.15 (73)专利权人 北京海泰方圆科技股份有限公司 地址 100094 北京市海淀区东北旺西路8号 中关村软件园9 号楼国际软件大厦E座 一层、 二层 (72)发明人 张阳 漆骏锋 胡伯良  (74)专利代理 机构 北京同达信恒知识产权代理 有限公司 1 1291 专利代理师 刘亚威 (51)Int.Cl. G06F 40/211(2020.01)G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) 审查员 王环 (54)发明名称 相似样本语料的生成方法、 装置、 电子设备 及存储介质 (57)摘要 本申请涉及数据处理领域, 尤其涉及一种相 似样本语料的生成方法、 装置、 电子设备及存储 介质, 解决相似样本语料的生成过程复杂, 以及 难以生成有效相似样本语料的问题, 方法为: 获 取目标领域的一个第一种子语句, 以及其他领域 中的各个第二种子语句, 将第一种子语句输入添 加噪音扰动的各个预训练模型, 获得各个第一融 合结果, 以及获取根据各个第二种子语句确定的 各个第二融合结果, 再根据所述各个第一融合结 果, 生成各组相似正样本语料, 以及根据所述各 个第一融合结果和各个第二融合结果, 生成各组 相似负样本语料。 这样, 不仅简化了相似样本语 料的生成过程, 还提高了相似样 本语料的生成效 率, 而且能够生成有效的相似样本 语料。 权利要求书3页 说明书17页 附图2页 CN 114357974 B 2022.09.23 CN 114357974 B 1.一种相似样本语料的生成方法, 其特征在于, 应用于目标领域的相似样本语料生成 过程中, 包括: 获取目标领域的一个第一种子语句, 以及获取除所述目标领域外的, 其他领域中的各 个第二种子语句, 种子语句中包 含其归属的领域内的实体名词; 构建各个包括多层编码网络的预训练模型, 并将所述第 一种子语句输入添加噪音扰动 的各个预训练模型, 获得根据所述添加噪音扰动的各个预训练模型中, 归属于预设第一类 层级的编码网络的输出向量, 确定的各个第一融合结果; 在各个预训练模型中确定目标预训练模型, 并将所述各个第 二种子语句分别 输入所述 目标预训练模型, 分别获得根据所述 目标预训练模型中, 归属于预设第二类层级的编码网 络的输出向量, 确定的第二融合结果; 根据所述各个第一融合结果, 生成各组相似正样本语料, 以及根据所述各个第一融合 结果和各个第二融合结果, 生成各组相似负 样本语料; 所述获得根据 所述添加噪音扰动的各个预训练模型中, 归属于预设第 一类层级的编码 网络的输出向量, 确定的各个第一融合结果, 包括: 针对所述添加噪音扰动的各个预训练模型, 分别执 行以下操作: 确定一个添加噪音扰动的预训练模型中, 归属于预设第 一类层级的至少一个目标层级 编码网络, 并获得各个目标层级编码网络的输出向量; 将各个输出向量中各个相同位置的 元素进行加权求和, 得到对应的第一融合结果; 所述根据所述各个第一融合结果, 生成各组相似正样本语料, 以及根据所述各个第一 融合结果和各个第二融合结果, 生成各组相似负 样本语料, 包括: 在各个第一融合结果中确定一个目标第一融合结果, 并将所述目标第一融合结果, 分 别与所述各个第一融合结果中除所述目标第一融合结果外的, 各个其他第一融合结果进 行 组合, 得到各组相似正样本语料; 将所述目标第一融合结果, 分别与各个第二融合结果进 行 组合, 得到各组相似负 样本语料。 2.如权利要求1所述的方法, 其特征在于, 所述获取目标领域的第一种子语句, 以及获 取除所述目标 领域外的, 其 他领域中的各个第二种子语句, 包括: 获取目标领域的第一候选文本, 以及获取除所述目标领域外的, 其他领域中的第二候 选文本; 将所述第一候选文本和第 二候选文本处理为指定的编码格式, 并对指定的编码格 式的 所述第一 候选文本和第二 候选文本, 分别进行降噪处 理和非法字符清理 处理; 按照指定字符从处理后的第 一候选文本 中拆分得到一个第 一种子语句, 并按照所述指 定字符从处 理后的第二 候选文本中拆分得到各个第二种子语句。 3.如权利要求2所述的方法, 其特征在于, 所述获取目标领域的第一候选文本, 以及获 取除所述目标 领域外的, 其 他领域中的第二 候选文本, 包括: 获取已训练的文本领域分类模型, 其中, 所述文本领域分类模型是基于各个领域的文 本样本训练得到的; 将获取的各个候选文本分别 输入所述文本领域分类模型中, 获得所述各个所述候选文 本各自对应的分类结果, 并将归属于目标领域的候选文本作为第一候选文本, 以及将不归 属于所述目标 领域的候选文本作为第二 候选文本 。权 利 要 求 书 1/3 页 2 CN 114357974 B 24.如权利要求1所述的方法, 其特征在于, 所述构建各个包括多层编码网络的预训练模 型, 包括: 获取一个包含多层编码网络的参考模型, 确定所述参考模型中各层编码网络的注意力 头数, 以及各层编码网络中神经 元的失活概 率; 通过调整所述参考模型中编码网络的注意力头数, 以及神经元的失活概率, 构建各个 包括多层编码网络的预训练模型。 5.如权利要求1所述的方法, 其特征在于, 在各个预训练模型中添加噪音扰动 时, 针对 各个预训练模型, 分别执 行以下操作中的任意 一项或组合: 基于配置的各个第一扰动因子, 分别对各层编码网络的输入数据进行处 理; 基于配置的各个第二扰动因子, 分别对各层编码网络的模型参数进行处 理; 基于配置的第三扰动因子, 对反向传播时计算得到的梯度参数进行处 理; 采用预设的各个第一噪音函数, 分别对各层编码网络的输入数据进行处 理; 采用预设的各个第二噪音函数, 分别对各层编码网络的模型参数 行处理; 采用预设的第三噪音函数, 对反向传播时计算得到的梯度参数进行处 理。 6.一种相似样本语料的生成装置, 其特征在于, 应用于目标领域的相似样本语料生成 过程中, 包括: 获取单元, 用于获取目标领域的一个第一种子语句, 以及获取除所述目标领域外的, 其 他领域中的各个第二种子语句, 种子语句中包 含其归属的领域内的实体名词; 构建单元, 用于构建各个包括多层编码网络的预训练模型, 并将所述第一种子语句输 入添加噪音扰动的各个预训练模型, 获得根据所述添加噪音扰动的各个预训练模型中, 归 属于预设第一类层级的编码网络的输出向量, 确定的各个第一融合结果; 确定单元, 用于在各个预训练模型中确定目标预训练模型, 并将所述各个第二种子语 句分别输入所述目标预训练模型, 分别获得根据所述 目标预训练模型中, 归属于预设第二 类层级的编码网络的输出向量, 确定的第二融合结果; 生成单元, 用于根据 所述各个第 一融合结果, 生成各组相似正样本语料, 以及根据 所述 各个第一融合结果和各个第二融合结果, 生成各组相似负 样本语料; 其中, 所述获得根据所述添加噪音扰动的各个预训练模型中, 归属于预设第一类层级 的编码网络的输出向量, 确定的各个第一融合结果时, 所述构建单 元用于: 针对所述添加噪音扰动的各个预训练模型, 分别执 行以下操作: 确定一个添加噪音扰动的预训练模型中, 归属于预设第 一类层级的至少一个目标层级 编码网络, 并获得各个目标层级编码网络的输出向量; 将各个输出向量中各个相同位置的 元素进行加权求和, 得到对应的第一融合结果; 所述根据所述各个第一融合结果, 生成各组相似正样本语料, 以及根据所述各个第一 融合结果和各个第二融合结果, 生 成各组相似负样本语料时, 所述生成单元用于: 在各个第 一融合结果中确定一个目标第一融合结果, 并将所述 目标第一融合结果, 分别与所述各个 第一融合结果中除所述 目标第一融合结果外的, 各个其他第一融合结果进行组合, 得到各 组相似正样本语料; 将所述目标第一融合结果, 分别与各个第二融合结果进行 组合, 得到各 组相似负 样本语料。 7.如权利要求6所述的装置, 其特征在于, 所述获取目标领域的第一种子语句, 以及取权 利 要 求 书 2/3 页 3 CN 114357974 B 3

.PDF文档 专利 相似样本语料的生成方法、装置、电子设备及存储介质

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 相似样本语料的生成方法、装置、电子设备及存储介质 第 1 页 专利 相似样本语料的生成方法、装置、电子设备及存储介质 第 2 页 专利 相似样本语料的生成方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 00:20:29上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。