专利开集数据的标注方法、装置、设备、存储介质及程序产品

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111660140.8 (22)申请日 2021.12.3 0 (71)申请人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人赵珣　宁鲲鹏　李昱　 (74)专利代理机构北京三高永信知识产权代理有限责任公司 1 1138 代理人李文静 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称开集数据的标注方法、装置、设备、存储介质及程序产品 (57)摘要本申请公开了一种开集数据的标注方法、装置、设备、存储介质及程序产品，涉及人工智能技术领域。所述方法包括：获取包含多个样本的开集数据；通过识别器从开集数据中识别得到N个预测已知类别样本；从N个预测已知类别样本中，选择可信度满足条件的预测已知类别样本，作为分类器的训练样本。本申请通过识别器对开集数据中的样本进行初步识别得到预测已知类别样本，然后通过可信度对预测已知类别样本进行二次筛选，得到用于训练分类器的训练样本。本申请提供了一种可以运用于开集数据的样本识别标注方法，且该方法利用识别器进行初步识别，然后基于可信度进行二次筛选，充分保证了从开集数据中选取的已知类别样本的准确性。权利要求书3页说明书15页附图8页 CN 114330570 A 2022.04.12 CN 114330570 A 1.一种开集数据的标注方法，其特征在于，所述方法包括：获取包含多个样本的开集数据，所述多个样本包括至少一个已知类别样本和至少一个未知类别样本；其中，所述已知类别样本是指真实类别属于K个已知类别的样本，所述未知类别样本是指真实类别不属于所述K个已知类别的样本， K为正整数；通过识别器从所述开集数据中识别得到N个预测已知类别样本；其中，所述识别器用于识别所述样本为所述已知类别样本或所述未知类别样本，所述预测已知类别样本是指所述识别器识别为所述已知类别样本的样本， N 为正整数；从所述N个预测已知类别样本中，选择可信度满足条件的预测已知类别样本，作为分类器的训练样本；其中，所述分类器用于对所述K个已知类别进行分类。 2.根据权利要求1所述的方法，其特征在于，所述通过识别器从所述开集数据中识别得到N个预测已知类别样本，包括：对于所述开集数据中的目标样本，将所述目标样本输入至所述识别器；通过所述识别器得到所述目标样本对应的K+1个激活值；其中，所述K+1个激活值和K+1 个类别一一对应，所述K+1个类别包括未知类别和所述K个已知类别；若所述K+1个激活值符合条件，则确定所述目标样本为所述已知类别样本；从所述开集数据中，选择N个确定为所述已知类别样本的样本，得到所述N个预测已知类别样本。 3.根据权利要求2所述的方法，其特征在于，所述若所述K+1个激活值符合条件，则确定所述目标样本为所述已知类别样本，包括：确定所述K+1个激活值中的最大激活值；若所述最大激活值对应的类别属于所述K个已知类别，则确定所述目标样本为所述已知类别样本。 4.根据权利要求2所述的方法，其特征在于，所述从所述N个预测已知类别样本中，选择可信度满足条件的预测已知类别样本，作为分类器的训练样本，包括：使用高斯混合模型GMM对所述N个预测已知类别样本对应的最大激活值分布进行建模，得到所述N个预测已知类别样本分别对应的概率值；其中，所述概率值用于表征所述预测已知类别样本属于所述已知类别的可信度；从所述N个预测已知类别样本中，基于所述概率值满足目标条件的预测已知类别样本，得到所述分类器的训练样本。 5.根据权利要求4所述的方法，其特征在于，所述使用GMM对所述N个预测已知类别样本对应的最大激活值分布进行建模，得到所述N个预测已知类别样本分别对应的概率值，包括：对于所述K个已知类别中的目标已知类别，从所述N个预测已知类别样本中，选择属于所述目标已知类别的M个预测已知类别样本， M为小于或等于N的正整数；对于所述M个预测已知类别样本中的每一个预测已知类别样本，从所述预测已知类别样本对应的K+1个激活值中，获取所述目标已知类别对应的激活值，得到 M个激活值；使用所述GMM对所述M个激活值进行建模，得到所述M个预测已知类别样本分别对应的概率值；其中，所述M个预测已知类别样本中的第i个预测已知类别样本对应的概率值，用于表征所述第i个预测已知类别样本属于所述目标已知类别的可信度， i为小于或等于M的正权　利　要　求　书 1/3 页 2 CN 114330570 A 2整数。 6.根据权利要求4所述的方法，其特征在于，所述从所述N个预测已知类别样本中，基于所述概率值满足目标条件的预测已知类别样本，得到所述分类器的训练样本，包括：获取所述概率值满足所述目标条件的预测已知类别样本对应的标注类别，所述标注类别为所述K+1个类别中的一个类别；将所述标注类别属于所述K个已知类别的预测已知类别样本，作为所述分类器的训练样本。 7.根据权利要求6所述的方法，其特征在于，所述获取所述概率值符合条件的预测已知类别样本对应的标注类别之后，还包括：基于所述预测已知类别样本对应的标注类别，以及所述识别器得到的所述预测已知类别样本对应的K+1个激活值，计算所述识别器的训练损失；其中，所述预测类别为所述K+1个类别中的一个类别；基于所述识别器的训练损失对所述识别器的参数进行调整，得到更新后的识别器；其中，所述更新后的识别器用于从所述开集数据中识别新的预测已知类别样本。 8.根据权利要求6所述的方法，其特征在于，所述基于所述预测已知类别样本对应的标注类别，以及所述识别器得到的所述预测已知类别样本对应的K+1个激活值，计算所述识别器的训练损失，包括：基于所述预测已知类别样本对应的标注类别，确定所述预测已知类别样本对应的K+1 个标注激活值；其中，所述标注类别对应的标注激活值为第一数值，所述K+1个类别中除所述标注类别之外的其他类别对应的标注激活值为第二数值，所述第一数值和所述第二数值不同；基于所述预测已知类别样本对应的K+1个标注激活值、所述识别器得到的所述预测已知类别样本对应的K+1个激活值，以及温度系数，计算所述识别器的训练损失；其中，所述温度系数用于调节激活值分布的尖锐程度。 9.根据权利要求1至8任一项所述的方法，其特征在于，所述识别器的预训练过程如下：获取所述识别器的预训练数据集，所述预训练数据集中包括至少一个带类别标签的预训练样本，所述类别标签是所述未知类别和所述K个已知类别中的一个类别；采用所述预训练数据集对所述识别器进行训练，得到预训练完成的识别器；其中，所述预训练完成的识别器用于从所述开集数据中识别所述预测已知类别样本。 10.一种开集数据的标注装置，其特征在于，所述装置包括：样本获取模块，用于获取包含多个样本的开集数据，所述多个样本包括至少一个已知类别样本和至少一个未知类别样本；其中，所述已知类别样本是指真实类别属于K个已知类别的样本，所述未知类别样本是指真实类别不属于所述K个已知类别的样本， K为正整数；样本识别模块，用于通过识别器从所述开集数据中识别得到N个预测已知类别样本；其中，所述识别器用于识别所述样本为所述已知类别样本或所述未知类别样本，所述预测已知类别样本是指所述识别器识别为所述已知类别样本的样本， N 为正整数；样本选择模块，用于从所述N个预测已知类别样本中，选择可信度满足条件的预测已知类别样本，作为分类器的训练样本；其中，所述分类器用于对所述K个已知类别进行分类。 11.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器权　利　要　求　书 2/3 页 3 CN 114330570 A 3

专利 开集数据的标注方法、装置、设备、存储介质及程序产品

专利开集数据的标注方法、装置、设备、存储介质及程序产品