说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111671826.7 (22)申请日 2021.12.31 (71)申请人 胜斗士 (上海) 科技 技术发展有限公 司 地址 200120 上海市浦东 新区牡丹路60号 10-11层 (72)发明人 凌悦 付宇  (74)专利代理 机构 北京市汉坤律师事务所 11602 代理人 魏小薇 吴丽丽 (51)Int.Cl. G06F 40/205(2020.01) G06F 40/166(2020.01) G06F 40/117(2020.01) G06N 3/08(2006.01) (54)发明名称 数据集的生成方法及装置 (57)摘要 本公开提供了一种数据集的生成方法及装 置, 涉及人工智 能技术领域, 尤其涉及自然语言 处理领域。 实现方案为: 获取标签预测模型所输 出的关于输入文本信息的至少一个标签预测类 别; 根据预设规则, 从至少一个标签预测类别中 确定至少一个不可靠标签预测类别; 基于输入文 本信息以及相对应的一个或多个真实标签类别 生成第一样 本文本集。 输入文本信息以及确定出 的真实标签类别可以作为新生成的样本数据以 用于对其他神经网络模型的训练。 由于新生成的 样本数据中的不可靠标签类别已被校准, 因此, 后续训练完成的其他神经网络模型可以提高对 于不可靠标签 类别的预测的准确度。 权利要求书2页 说明书10页 附图4页 CN 114266239 A 2022.04.01 CN 114266239 A 1.一种数据集的生成方法, 包括: 获取标签预测模型 所输出的关于 输入文本信息的至少一个标签预测类别; 根据预设规则, 从所述至少一个标签预测类别中确定 至少一个不可靠标签预测类别; 从所述至少一个不可靠标签预测类别中确定所述输入文本信息的一个或多个真实标 签类别; 以及 基于所述输入文本信息以及相对应的一个或多个真实标签 类别生成第一样本文本集。 2.根据权利要求1所述的生成方法, 还 包括: 在将所述输入文本信 息输入所述标签预测模型之前, 利用第 二样本文本集对所述标签 预测模型进行 预训练, 其中, 所述第二样本文本集包括多个样本文本信息 。 3.根据权利要求2所述的生成方法, 其中, 所述第二样本文本集中的多个样本文本信息包括由自然语言生成模型生成的构造文 本信息。 4.根据权利要求3所述的生成方法, 其中, 基于所述输入文本信 息以及相对应的一个或 多个真实标签 类别生成第一样本文本集包括: 将所述输入文本信息以及相对应的一个或多个真实标签类别作为新的样本文本信息 添加到所述第二样本文本集以构成所述第一样本文本集。 5.根据权利要求3所述的生成方法, 其中, 基于所述输入文本信 息以及相对应的一个或 多个真实标签 类别生成第一样本文本集还 包括: 将所述输入文本信息以及相对应的一个或多个真实标签类别作为新的样本文本信息 替换所述第二样本文本集中的至少部分构造文本信息以构成所述第一样本文本集。 6.根据权利要求1至5中任一项所述的生成方法, 其中, 所述标签预测模型的输出还包 括所述至少一个标签预测类别各自相对应的预测置信度, 其中, 根据预设规则, 从所述至少 一个标签预测类别中确定 至少一个不可靠标签预测类别包括: 从所述至少一个标签预测类别中确定相对应的预测置信度小于第一预设置信度的至 少一个标签预测类别, 以作为所述至少一个不可靠标签预测类别。 7.根据权利要求1至5中任一项所述的生成方法, 其中, 从所述至少一个不可靠标签预 测类别中确定所述输入文本信息的一个或多个真实标签 类别包括: 将所述输入文本信 息以及所述至少一个不可靠标签预测类别发送至标签标注平台, 以 供确定所述输入文本信息的真实标签 类别; 以及 从标签标注 平台获取 所述输入文本信息的真实标签 类别。 8.一种用于标签预测的神经网络模型的训练方法, 包括: 获取样本文本信 息及其至少一个真实标签类别, 所获取的样本文本信 息来自第 一样本 文本集并且所述第一样本文本集 为采用权利要求1 ‑7中任一项所述的方法而生成的; 将所述样本文本信 息输入所述神经网络模型, 并获取所述神经网络模型所输出的针对 所获取的样本文本信息的至少一个标签预测类别; 至少基于所述至少一个真实标签类别和所述至少一个标签预测类别, 计算损 失值; 以 及 基于所述损失值调整所述神经网络模型的参数。 9.根据权利要求8所述的训练方法, 其中权 利 要 求 书 1/2 页 2 CN 114266239 A 2所述神经网络模型包括所述标签预测模型。 10.一种数据集的生成装置, 包括: 第一获取单元, 配置成获取所述标签预测模型所输出的关于输入文本信 息的至少一个 标签预测类别; 第一确定单元, 配置成根据预设规则, 从所述至少一个标签预测类别 中确定至少一个 不可靠标签预测类别; 第二确定单元, 配置成从所述至少一个不可靠标签预测类别中确定所述输入文本信 息 的一个或多个真实标签 类别; 以及 生成单元, 配置成基于所述输入文本信 息以及相对应的一个或多个真实标签类别生成 第一样本文本集。 11.一种用于标签预测的神经网络模型的训练装置, 包括: 第二获取单元, 配置成获取样本文本信息及其至少一个真实标签类别, 所获取的样本 文本信息来自第一样本文本集并且所述第一样 本文本集为采用权利要求 1‑7中任一项所述 的方法而生成的; 第三获取单元, 配置成将所述样本文本信息输入所述神经网络模型, 并获取所述神经 网络模型 所输出的针对所获取的样本文本信息的至少一个标签预测类别; 计算单元, 配置成至少基于所述至少一个真实标签类别和所述至少一个标签预测类 别, 计算损失值; 以及 调整单元, 配置成基于所述损失值调整所述神经网络模型的参数。 12.一种电子设备, 包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处 理器能够执 行权利要求1 ‑9中任一项所述的方法。 13.一种存储有计算机指令的非瞬时计算机可读存储介质, 其中, 所述计算机指令用于 使所述计算机执 行根据权利要求1 ‑9中任一项所述的方法。 14.一种计算机程序产品, 包括计算机程序, 其中, 所述计算机程序在被处理器执行时 实现权利要求1 ‑9中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114266239 A 3

.PDF文档 专利 数据集的生成方法及装置

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据集的生成方法及装置 第 1 页 专利 数据集的生成方法及装置 第 2 页 专利 数据集的生成方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 00:20:14上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。