说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111660140.8 (22)申请日 2021.12.3 0 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 赵珣 宁鲲鹏 李昱  (74)专利代理 机构 北京三高永信知识产权代理 有限责任公司 1 1138 代理人 李文静 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 开集数据的标注方法、 装置、 设备、 存储介质 及程序产品 (57)摘要 本申请公开了一种开集数据的标注方法、 装 置、 设备、 存储介质及程序产品, 涉及人工智能技 术领域。 所述方法包括: 获取包含多个样本的开 集数据; 通过识别器从开集数据中识别得到N个 预测已知类别样本; 从N个预测已知类别样本中, 选择可信度满足条件的预测已知类别样本, 作为 分类器的训练样本。 本申请通过识别器对开集数 据中的样本进行初步识别得到预测已知类别样 本, 然后通过可信度对预测已知类别样本进行二 次筛选, 得到用于训练分类器的训练样本。 本申 请提供了一种可以运用于开集数据的样本识别 标注方法, 且该方法利用识别器进行初步识别, 然后基于 可信度进行二次筛选, 充分保证了从开 集数据中选取的已知类别样本的准确性。 权利要求书3页 说明书15页 附图8页 CN 114330570 A 2022.04.12 CN 114330570 A 1.一种开 集数据的标注方法, 其特 征在于, 所述方法包括: 获取包含多个样本的开集数据, 所述多个样本包括至少一个已知类别样本和至少一个 未知类别样本; 其中, 所述已知类别样本是指真实类别属于K个已知类别的样本, 所述未知 类别样本是指真实类别不属于所述K个已知类别的样本, K为 正整数; 通过识别器从所述开集数据中识别得到N个预测已知类别样本; 其中, 所述识别器用于 识别所述样本为所述已知类别样本或所述未知类别样本, 所述预测已知类别样本是指所述 识别器识别为所述已知类别样本的样本, N 为正整数; 从所述N个预测已知类别样本 中, 选择可信度满足条件的预测已知类别样本, 作为分类 器的训练样本; 其中, 所述分类 器用于对所述K个已知类别进行分类。 2.根据权利要求1所述的方法, 其特征在于, 所述通过识别器从所述开集数据中识别得 到N个预测已知类别样本, 包括: 对于所述 开集数据中的目标样本, 将所述目标样本 输入至所述识别器; 通过所述识别器得到所述目标样本对应的K+1个激活值; 其中, 所述K+1个激活值和K+1 个类别一一对应, 所述K+1个 类别包括未知类别和所述K个已知类别; 若所述K+1个激活值符合条件, 则确定所述目标样本为所述已知类别样本; 从所述开集数据中, 选择N个确定为所述已知类别样本的样本, 得到所述N个预测已知 类别样本 。 3.根据权利要求2所述的方法, 其特征在于, 所述若所述K+1个激活值符合条件, 则确定 所述目标样本为所述已知类别样本, 包括: 确定所述K+1个激活值中的最大激活值; 若所述最大激活值对应的类别属于所述K个已知类别, 则确定所述目标样本为所述已 知类别样本 。 4.根据权利要求2所述的方法, 其特征在于, 所述从所述N个预测已知类别样本 中, 选择 可信度满足条件的预测已知类别样本, 作为分类 器的训练样本, 包括: 使用高斯混合模型GMM对所述N个预测已知类别样本对应的最大激活值分布进行建模, 得到所述N个预测已知类别样本 分别对应的概率值; 其中, 所述概率值用于表征所述预测已 知类别样本属于所述已知类别的可信度; 从所述N个预测已知类别样本 中, 基于所述概率值满足目标条件的预测已知类别样本, 得到所述分类 器的训练样本 。 5.根据权利要求4所述的方法, 其特征在于, 所述使用GMM对所述N个预测已知类别样本 对应的最大激活值分布进行建模, 得到所述N个预测已知类别样本分别对应的概率值, 包 括: 对于所述K个已知类别 中的目标已知类别, 从所述N个预测已知类别样本中, 选择属于 所述目标已知类别的M个预测已知类别样本, M为小于或等于N的正整数; 对于所述M个预测已知类别样本中的每一个预测已知类别样本, 从所述预测已知类别 样本对应的K+1个激活值中, 获取 所述目标已知类别对应的激活值, 得到 M个激活值; 使用所述GMM对所述M个激活值进行建模, 得到所述M个预测已知类别样本分别对应的 概率值; 其中, 所述M个预测已知类别样 本中的第i个预测已知类别样本对应的概率值, 用于 表征所述第i个预测已知类别样本属于所述 目标已知类别的可信度, i为小于或等于M的正权 利 要 求 书 1/3 页 2 CN 114330570 A 2整数。 6.根据权利要求4所述的方法, 其特征在于, 所述从所述N个预测已知类别样本 中, 基于 所述概率值满足目标 条件的预测已知类别样本, 得到所述分类 器的训练样本, 包括: 获取所述概率值满足所述目标条件的预测已知类别样本对应的标注类别, 所述标注类 别为所述K+1个 类别中的一个 类别; 将所述标注类别属于所述K个已知类别的预测已知类别样本, 作为所述分类器的训练 样本。 7.根据权利要求6所述的方法, 其特征在于, 所述获取所述概率值符合条件的预测已知 类别样本对应的标注类别之后, 还 包括: 基于所述预测已知类别样本对应的标注类别, 以及所述识别器得到的所述预测已知类 别样本对应的K+1个激活值, 计算所述识别器的训练损失; 其中, 所述预测类别为所述K+1个 类别中的一个 类别; 基于所述识别器的训练损 失对所述识别器的参数进行调整, 得到更新后的识别器; 其 中, 所述更新后的识别器用于从所述 开集数据中识别新的预测已知类别样本 。 8.根据权利要求6所述的方法, 其特征在于, 所述基于所述预测已知类别样本对应的标 注类别, 以及所述识别器得到的所述预测已知类别样 本对应的K+1个激活值, 计算所述识别 器的训练损失, 包括: 基于所述预测已知类别样本对应的标注类别, 确定所述预测已知类别样本对应的K+1 个标注激活值; 其中, 所述标注类别对应的标注激活值为第一数值, 所述K+1个类别中除所 述标注类别之外的其他类别对应的标注激活值为第二数值, 所述第一数值和所述第二数值 不同; 基于所述预测已知类别样本对应的K+1个标注激活值、 所述识别器得到的所述预测已 知类别样本对应的K+1个激活值, 以及温度系数, 计算所述识别器的训练损失; 其中, 所述温 度系数用于调节激活值分布的尖锐程度。 9.根据权利要求1至8任一项所述的方法, 其特 征在于, 所述识别器的预训练过程如下: 获取所述识别器的预训练数据集, 所述预训练数据集中包括至少一个带类别标签的预 训练样本, 所述类别标签是 所述未知类别和所述K个已知类别中的一个 类别; 采用所述预训练数据集对所述识别器进行训练, 得到预训练完成的识别器; 其中, 所述预训练完成的识别器用于从所述 开集数据中识别所述预测已知类别样本 。 10.一种开 集数据的标注装置, 其特 征在于, 所述装置包括: 样本获取模块, 用于获取包含多个样本的开集数据, 所述多个样本包括至少一个已知 类别样本和至少一个未知类别样本; 其中, 所述已知类别样本是指真实类别属于K个已知类 别的样本, 所述未知类别样本是指真实类别不属于所述K个已知类别的样本, K为 正整数; 样本识别模块, 用于通过识别器从所述开集数据中识别得到N个预测已知类别样本; 其 中, 所述识别器用于识别所述样本为所述已知类别样本或所述未知类别样本, 所述预测已 知类别样本是指所述识别器识别为所述已知类别样本的样本, N 为正整数; 样本选择模块, 用于从所述N个预测已知类别样本 中, 选择可信度满足条件的预测已知 类别样本, 作为分类 器的训练样本; 其中, 所述分类 器用于对所述K个已知类别进行分类。 11.一种计算机设备, 其特征在于, 所述计算机设备包括处理器和存储器, 所述存储器权 利 要 求 书 2/3 页 3 CN 114330570 A 3

.PDF文档 专利 开集数据的标注方法、装置、设备、存储介质及程序产品

文档预览
中文文档 27 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 开集数据的标注方法、装置、设备、存储介质及程序产品 第 1 页 专利 开集数据的标注方法、装置、设备、存储介质及程序产品 第 2 页 专利 开集数据的标注方法、装置、设备、存储介质及程序产品 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:56:32上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。