专利 数据集的生成方法及装置

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111671826.7 (22)申请日 2021.12.31 (71)申请人胜斗士（上海）科技技术发展有限公司地址 200120 上海市浦东新区牡丹路60号 10-11层 (72)发明人凌悦　付宇　 (74)专利代理机构北京市汉坤律师事务所 11602 代理人魏小薇　吴丽丽 (51)Int.Cl. G06F 40/205(2020.01) G06F 40/166(2020.01) G06F 40/117(2020.01) G06N 3/08(2006.01) (54)发明名称数据集的生成方法及装置 (57)摘要本公开提供了一种数据集的生成方法及装置，涉及人工智能技术领域，尤其涉及自然语言处理领域。实现方案为：获取标签预测模型所输出的关于输入文本信息的至少一个标签预测类别；根据预设规则，从至少一个标签预测类别中确定至少一个不可靠标签预测类别；基于输入文本信息以及相对应的一个或多个真实标签类别生成第一样本文本集。输入文本信息以及确定出的真实标签类别可以作为新生成的样本数据以用于对其他神经网络模型的训练。由于新生成的样本数据中的不可靠标签类别已被校准，因此，后续训练完成的其他神经网络模型可以提高对于不可靠标签类别的预测的准确度。权利要求书2页说明书10页附图4页 CN 114266239 A 2022.04.01 CN 114266239 A 1.一种数据集的生成方法，包括：获取标签预测模型所输出的关于输入文本信息的至少一个标签预测类别；根据预设规则，从所述至少一个标签预测类别中确定至少一个不可靠标签预测类别；从所述至少一个不可靠标签预测类别中确定所述输入文本信息的一个或多个真实标签类别；以及基于所述输入文本信息以及相对应的一个或多个真实标签类别生成第一样本文本集。 2.根据权利要求1所述的生成方法，还包括：在将所述输入文本信息输入所述标签预测模型之前，利用第二样本文本集对所述标签预测模型进行预训练，其中，所述第二样本文本集包括多个样本文本信息。 3.根据权利要求2所述的生成方法，其中，所述第二样本文本集中的多个样本文本信息包括由自然语言生成模型生成的构造文本信息。 4.根据权利要求3所述的生成方法，其中，基于所述输入文本信息以及相对应的一个或多个真实标签类别生成第一样本文本集包括：将所述输入文本信息以及相对应的一个或多个真实标签类别作为新的样本文本信息添加到所述第二样本文本集以构成所述第一样本文本集。 5.根据权利要求3所述的生成方法，其中，基于所述输入文本信息以及相对应的一个或多个真实标签类别生成第一样本文本集还包括：将所述输入文本信息以及相对应的一个或多个真实标签类别作为新的样本文本信息替换所述第二样本文本集中的至少部分构造文本信息以构成所述第一样本文本集。 6.根据权利要求1至5中任一项所述的生成方法，其中，所述标签预测模型的输出还包括所述至少一个标签预测类别各自相对应的预测置信度，其中，根据预设规则，从所述至少一个标签预测类别中确定至少一个不可靠标签预测类别包括：从所述至少一个标签预测类别中确定相对应的预测置信度小于第一预设置信度的至少一个标签预测类别，以作为所述至少一个不可靠标签预测类别。 7.根据权利要求1至5中任一项所述的生成方法，其中，从所述至少一个不可靠标签预测类别中确定所述输入文本信息的一个或多个真实标签类别包括：将所述输入文本信息以及所述至少一个不可靠标签预测类别发送至标签标注平台，以供确定所述输入文本信息的真实标签类别；以及从标签标注平台获取所述输入文本信息的真实标签类别。 8.一种用于标签预测的神经网络模型的训练方法，包括：获取样本文本信息及其至少一个真实标签类别，所获取的样本文本信息来自第一样本文本集并且所述第一样本文本集为采用权利要求1 ‑7中任一项所述的方法而生成的；将所述样本文本信息输入所述神经网络模型，并获取所述神经网络模型所输出的针对所获取的样本文本信息的至少一个标签预测类别；至少基于所述至少一个真实标签类别和所述至少一个标签预测类别，计算损失值；以及基于所述损失值调整所述神经网络模型的参数。 9.根据权利要求8所述的训练方法，其中权　利　要　求　书 1/2 页 2 CN 114266239 A 2所述神经网络模型包括所述标签预测模型。 10.一种数据集的生成装置，包括：第一获取单元，配置成获取所述标签预测模型所输出的关于输入文本信息的至少一个标签预测类别；第一确定单元，配置成根据预设规则，从所述至少一个标签预测类别中确定至少一个不可靠标签预测类别；第二确定单元，配置成从所述至少一个不可靠标签预测类别中确定所述输入文本信息的一个或多个真实标签类别；以及生成单元，配置成基于所述输入文本信息以及相对应的一个或多个真实标签类别生成第一样本文本集。 11.一种用于标签预测的神经网络模型的训练装置，包括：第二获取单元，配置成获取样本文本信息及其至少一个真实标签类别，所获取的样本文本信息来自第一样本文本集并且所述第一样本文本集为采用权利要求 1‑7中任一项所述的方法而生成的；第三获取单元，配置成将所述样本文本信息输入所述神经网络模型，并获取所述神经网络模型所输出的针对所获取的样本文本信息的至少一个标签预测类别；计算单元，配置成至少基于所述至少一个真实标签类别和所述至少一个标签预测类别，计算损失值；以及调整单元，配置成基于所述损失值调整所述神经网络模型的参数。 12.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1 ‑9中任一项所述的方法。 13.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1 ‑9中任一项所述的方法。 14.一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现权利要求1 ‑9中任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 114266239 A 3

专利 数据集的生成方法及装置

专利数据集的生成方法及装置