说明:收录全网最新的团体标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111671826.7 (22)申请日 2021.12.31 (71)申请人 胜斗士 (上海) 科技 技术发展有限公 司 地址 200120 上海市浦东 新区牡丹路60号 10-11层 (72)发明人 凌悦 付宇 (74)专利代理 机构 北京市汉坤律师事务所 11602 代理人 魏小薇 吴丽丽 (51)Int.Cl. G06F 40/205(2020.01) G06F 40/166(2020.01) G06F 40/117(2020.01) G06N 3/08(2006.01) (54)发明名称 数据集的生成方法及装置 (57)摘要 本公开提供了一种数据集的生成方法及装 置, 涉及人工智 能技术领域, 尤其涉及自然语言 处理领域。 实现方案为: 获取标签预测模型所输 出的关于输入文本信息的至少一个标签预测类 别; 根据预设规则, 从至少一个标签预测类别中 确定至少一个不可靠标签预测类别; 基于输入文 本信息以及相对应的一个或多个真实标签类别 生成第一样 本文本集。 输入文本信息以及确定出 的真实标签类别可以作为新生成的样本数据以 用于对其他神经网络模型的训练。 由于新生成的 样本数据中的不可靠标签类别已被校准, 因此, 后续训练完成的其他神经网络模型可以提高对 于不可靠标签 类别的预测的准确度。 权利要求书2页 说明书10页 附图4页 CN 114266239 A 2022.04.01 CN 114266239 A 1.一种数据集的生成方法, 包括: 获取标签预测模型 所输出的关于 输入文本信息的至少一个标签预测类别; 根据预设规则, 从所述至少一个标签预测类别中确定 至少一个不可靠标签预测类别; 从所述至少一个不可靠标签预测类别中确定所述输入文本信息的一个或多个真实标 签类别; 以及 基于所述输入文本信息以及相对应的一个或多个真实标签 类别生成第一样本文本集。 2.根据权利要求1所述的生成方法, 还 包括: 在将所述输入文本信 息输入所述标签预测模型之前, 利用第 二样本文本集对所述标签 预测模型进行 预训练, 其中, 所述第二样本文本集包括多个样本文本信息 。 3.根据权利要求2所述的生成方法, 其中, 所述第二样本文本集中的多个样本文本信息包括由自然语言生成模型生成的构造文 本信息。 4.根据权利要求3所述的生成方法, 其中, 基于所述输入文本信 息以及相对应的一个或 多个真实标签 类别生成第一样本文本集包括: 将所述输入文本信息以及相对应的一个或多个真实标签类别作为新的样本文本信息 添加到所述第二样本文本集以构成所述第一样本文本集。 5.根据权利要求3所述的生成方法, 其中, 基于所述输入文本信 息以及相对应的一个或 多个真实标签 类别生成第一样本文本集还 包括: 将所述输入文本信息以及相对应的一个或多个真实标签类别作为新的样本文本信息 替换所述第二样本文本集中的至少部分构造文本信息以构成所述第一样本文本集。 6.根据权利要求1至5中任一项所述的生成方法, 其中, 所述标签预测模型的输出还包 括所述至少一个标签预测类别各自相对应的预测置信度, 其中, 根据预设规则, 从所述至少 一个标签预测类别中确定 至少一个不可靠标签预测类别包括: 从所述至少一个标签预测类别中确定相对应的预测置信度小于第一预设置信度的至 少一个标签预测类别, 以作为所述至少一个不可靠标签预测类别。 7.根据权利要求1至5中任一项所述的生成方法, 其中, 从所述至少一个不可靠标签预 测类别中确定所述输入文本信息的一个或多个真实标签 类别包括: 将所述输入文本信 息以及所述至少一个不可靠标签预测类别发送至标签标注平台, 以 供确定所述输入文本信息的真实标签 类别; 以及 从标签标注 平台获取 所述输入文本信息的真实标签 类别。 8.一种用于标签预测的神经网络模型的训练方法, 包括: 获取样本文本信 息及其至少一个真实标签类别, 所获取的样本文本信 息来自第 一样本 文本集并且所述第一样本文本集 为采用权利要求1 ‑7中任一项所述的方法而生成的; 将所述样本文本信 息输入所述神经网络模型, 并获取所述神经网络模型所输出的针对 所获取的样本文本信息的至少一个标签预测类别; 至少基于所述至少一个真实标签类别和所述至少一个标签预测类别, 计算损 失值; 以 及 基于所述损失值调整所述神经网络模型的参数。 9.根据权利要求8所述的训练方法, 其中权 利 要 求 书 1/2 页 2 CN 114266239 A 2所述神经网络模型包括所述标签预测模型。 10.一种数据集的生成装置, 包括: 第一获取单元, 配置成获取所述标签预测模型所输出的关于输入文本信 息的至少一个 标签预测类别; 第一确定单元, 配置成根据预设规则, 从所述至少一个标签预测类别 中确定至少一个 不可靠标签预测类别; 第二确定单元, 配置成从所述至少一个不可靠标签预测类别中确定所述输入文本信 息 的一个或多个真实标签 类别; 以及 生成单元, 配置成基于所述输入文本信 息以及相对应的一个或多个真实标签类别生成 第一样本文本集。 11.一种用于标签预测的神经网络模型的训练装置, 包括: 第二获取单元, 配置成获取样本文本信息及其至少一个真实标签类别, 所获取的样本 文本信息来自第一样本文本集并且所述第一样 本文本集为采用权利要求 1‑7中任一项所述 的方法而生成的; 第三获取单元, 配置成将所述样本文本信息输入所述神经网络模型, 并获取所述神经 网络模型 所输出的针对所获取的样本文本信息的至少一个标签预测类别; 计算单元, 配置成至少基于所述至少一个真实标签类别和所述至少一个标签预测类 别, 计算损失值; 以及 调整单元, 配置成基于所述损失值调整所述神经网络模型的参数。 12.一种电子设备, 包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处 理器能够执 行权利要求1 ‑9中任一项所述的方法。 13.一种存储有计算机指令的非瞬时计算机可读存储介质, 其中, 所述计算机指令用于 使所述计算机执 行根据权利要求1 ‑9中任一项所述的方法。 14.一种计算机程序产品, 包括计算机程序, 其中, 所述计算机程序在被处理器执行时 实现权利要求1 ‑9中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114266239 A 3
专利 数据集的生成方法及装置
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助1.5元下载(无需注册)
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助1.5元下载
本文档由 人生无常 于
2024-03-19 00:20:14
上传分享
举报
下载
原文档
(704.8 KB)
分享
友情链接
GB-T 42731-2023 微电网技术要求.pdf
DB11-T 1448-2017 城市轨道交通工程资料管理规程 北京市.pdf
GB-T 34069-2017物联网总体技术智能传感器特性与分类.pdf
DB3302-T 165-2018 杨梅矮化早果丰产栽培技术规程 宁波市.pdf
T-GCHA 1.2—2018 定制家居产品 人造板定制衣柜 第2部分:原材料验收规范.pdf
GM-T 0105-2021 软件随机数发生器设计指南.pdf
GB-T 25066-2020 信息安全技术 信息安全产品类别与代码.pdf
GB-T 34690.2-2017 印刷技术 胶印数字化过程控制 第2部分:作业环境.pdf
T-CRHA 015—2023 成人经鼻高流量氧疗护理规范.pdf
GB-T 23050-2022 信息化和工业化融合管理体系 供应链数字化管理指南.pdf
DB23-T 3226—2022 湿地鸟类生物多样性监测技术规程 黑龙江省.pdf
GB-T 10722-2014 炭黑 总表面积和外表面积的测定 氮吸附法.pdf
OWASP 软件保证成熟度模型 v1.0 中文版 SAMM-1.0-cn.pdf
信通院 区块链白皮书 2023年.pdf
GB-T 12022-2014 工业六氟化硫.pdf
GB-T 17394.4-2014 金属材料 里氏硬度试验 第4部分 硬度值换算表.pdf
GB-T 14161-2008 矿山安全标志.pdf
红蓝对抗-红队作战手册.pdf
GB-T 3716-2023 托盘术语.pdf
信息安全风险评估表格.docx
1
/
3
17
评价文档
赞助1.5元 点击下载(704.8 KB)
回到顶部
×
微信扫码支付
1.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。