(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210198285.9
(22)申请日 2022.03.02
(71)申请人 深圳TCL新技术有限公司
地址 518052 广东省深圳市南 山区西丽 街
道中山园路10 01号国际E城D4栋9 楼
(72)发明人 任希佳 盛佳琦
(74)专利代理 机构 深圳紫藤知识产权代理有限
公司 44570
专利代理师 黄灵飞
(51)Int.Cl.
G06F 40/143(2020.01)
G06F 40/253(2020.01)
G06F 40/284(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种文本标注方法、 装置、 智能设备及 介质
(57)摘要
本申请实施例公开了一种文本标注方法、 装
置、 智能设备及存储介质, 本申请实施例可以获
取参考文本标注模型与所述参考文本标注模型
对应的初始测试集; 根据所述参考文本标注模型
与所述初始测试集生成对抗样 本集; 通过所述参
考文本标注模 型对所述对抗样 本集进行标注, 得
到对抗样 本标注结果; 根据所述对抗样本标注结
果与所述初始测试集调整所述参考文本标注模
型的损失函数; 根据所述损失函数对 所述参考文
本标注模型进行更新, 得到目标文本标注模型,
以通过所述目标文本标注模型对文本进行标注。
解决了文本标注效率较低的问题, 提高了目标文
本标注模型的生成 效率, 进而提高了智能设备的
文本标注效率。
权利要求书3页 说明书12页 附图5页
CN 114638198 A
2022.06.17
CN 114638198 A
1.一种文本标注方法, 其特 征在于, 所述方法包括:
获取参考文本标注模型与所述 参考文本标注模型对应的初始测试集;
根据所述 参考文本标注模型与所述初始测试集 生成对抗样本集;
通过所述参考文本标注模型对所述对抗样本集进行 标注, 得到对抗样本标注结果;
根据所述对抗样本标注结果与所述初始测试集调整所述参考文本标注模型的损失函
数;
根据所述损 失函数对所述参考文本标注模型进行更新, 得到目标文本标注模型, 以通
过所述目标文本标注模型对文本进行 标注。
2.根据权利要求1所述的文本标注方法, 其特征在于, 所述根据 所述参考文本标注模型
与所述初始测试集 生成对抗样本集包括:
获取所述初始测试集对应的第一原 始样本数据;
根据所述参考文本标注模型对所述第 一原始样本数据进行标注, 得到原始样本标注结
果;
根据所述初始测试集与所述原 始样本标注结果 生成所述对抗样本集。
3.根据权利要求2所述的文本标注方法, 其特征在于, 所述根据 所述初始测试集与 所述
原始样本标注结果 生成所述对抗样本集, 包括:
根据所述初始测试集与所述原始样本标注结果确定目标样本数据, 其中, 所述目标样
本数据为所述初始测试集中与所述原始样本标注结果匹配的目标测试数据对应的原始样
本数据;
对所述目标样本数据进行扰动处 理, 以生成对抗样本集。
4.根据权利要求3所述的文本标注方法, 其特征在于, 所述对所述目标样本数据进行扰
动处理, 以生成对抗样本集, 包括:
获取扰动处理方式, 其中, 所述扰动处理方式包括基于目标样本数据的词向量相似度
扰动、 基于目标样本数据的同义词扰动以及基于目标样本数据的义原扰动;
根据所述目标样本数据的词向量相似度扰动、 基于目标样本数据的同义词扰动以及基
于目标样本数据的义原扰动中的至少一种对所述目标样本数据进 行扰动处理, 以生成对抗
样本集。
5.根据权利要求1所述的文本标注方法, 其特征在于, 所述根据 所述对抗样本标注结果
与所述初始测试集调整所述 参考文本标注模型的损失函数, 包括:
根据所述对抗样本标注结果与所述初始测试集从所述对抗样本集中选取负样本, 其
中, 所述负样本为对抗样本集中所述对抗样本标注结果与所述初始测试集不匹配的对抗样
本;
根据所述负 样本调整所述 参考文本标注模型的损失函数。
6.根据权利要求5所述的文本标注方法, 其特征在于, 所述根据 所述负样本调整所述参
考文本标注模型的损失函数, 包括:
对所述负 样本施加惩罚因子;
将施加惩罚因子的负 样本输入所述 参考文本标注模型, 以调整所述损失函数。
7.根据权利要求1所述的文本标注方法, 其特征在于, 所述获取参考文本标注模型与 所
述参考文本标注模型对应的初始测试集之前, 包括:权 利 要 求 书 1/3 页
2
CN 114638198 A
2获取预设神经网络模型对应的样本集, 其中, 所述样本集包括测试集、 训练集、 所述测
试集对应的原 始样本数据以及所述训练集对应的原 始样本数据;
对所述样本集进行数据增强处理, 以得到初始测试集、 初始训练集、 所述初始测试集对
应的第一原 始样本数据以及所述初始训练集对应的第二原 始样本数据;
根据所述初始训练集对所述预设神经网络模型进行训练, 得到初始文本标注模型;
根据所述初始测试集对所述初始文本标注模型进行调整, 得到所述参考文本标注模
型。
8.根据权利要求7所述的文本标注方法, 其特征在于, 所述对所述样本集进行数据增强
处理, 以得到初始测试集、 初始训练集、 所述初始测试集对应的第一原始样 本数据以及所述
初始训练集对应的第二原 始样本数据, 包括:
获取预设数据增强方式, 所述预设数据增强方式包括随机噪声注入方式、 实例交叉扩
展方式以及语法树操作方式;
根据所述随机噪声注入方式、 实例交叉扩展方式以及语法树操作 方式中的至少一种 对
所述样本集进 行数据增强, 以得到初始测试集、 初始训练集、 所述初始测试集对应的第一原
始样本数据以及所述初始训练集对应的第二原 始样本数据。
9.根据权利要求7所述的文本标注方法, 其特征在于, 所述根据 所述初始测试集对所述
初始文本标注模型进行调整, 得到所述 参考文本标注模型, 包括:
将所述第一原 始样本数据输入所述初始文本标注模型, 得到初始样本标注结果;
将所述初始样本标注结果与 所述初始测试集进行对比, 以确定所述初始文本标注模型
的准确率;
若所述准确率大于或等于预设准确率, 则判定所述初始文本标注模型为所述参考文本
标注模型。
10.根据权利要求9所述的文本标注方法, 其特征在于, 所述确定所述初始文本标注模
型的准确率之后, 还 包括:
若所述准确率小于预设准确率, 则调整所述初始训练集;
根据调整后的初始训练集训练所述初始文本标注模型, 以更新所述初始文本标注模
型;
返回执行将所述第 一原始样本数据输入所述初始文本标注模型, 得到初始样本标注结
果的操作, 直至所述 准确率大于或等于所述预设准确率。
11.一种文本标注装置, 其特 征在于, 包括:
获取模块, 用于获取参 考文本标注模型与所述 参考文本标注模型对应的初始测试集;
生成模块, 用于根据所述 参考文本标注模型与所述初始测试集 生成对抗样本集;
第一标注模块, 用于通过所述参考文本标注模型对所述对抗样本集进行标注, 得到对
抗样本标注结果;
调整模块, 用于根据 所述对抗样本标注结果与 所述初始测试集调整所述参考文本标注
模型的损失函数;
第二标注模块, 用于根据所述损 失函数对所述参考文本标注模型进行更新, 得到目标
文本标注模型, 以通过 所述目标文本标注模型对文本进行 标注。
12.一种智能设备, 其特征在于, 包括处理器和存储器, 所述存储器中存储有计算机程权 利 要 求 书 2/3 页
3
CN 114638198 A
3
专利 一种文本标注方法、装置、智能设备及介质
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:46:32上传分享