专利主动学习方法、装置、电子设备及可读存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111640049.X (22)申请日 2021.12.2 9 (71)申请人上海高德威智能交通系统有限公司地址 201821 上海市嘉定区云谷路59 9弄6 号620室J 1452 (72)发明人陈明健　 (74)专利代理机构北京博思佳知识产权代理有限公司 1 1415 代理人王剑 (51)Int.Cl. G06N 3/08(2006.01) G06K 9/62(2022.01) G06V 10/762(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01) (54)发明名称主动学习方法、装置、电子设备及可读存储介质 (57)摘要本申请提供一种主动学习方法、装置、电子设备及可读存储介质，该主动学习方法包括：对于无标签样本集中的任一样本，利用预设增强方法对该样本进行增强处理，得到N个不同的增强样本；利用查询模型对该N个不同的增强样本进行预测，分别得到各增强样本中的目标实例的预测结果；对于该样本中的任一目标实例，依据各增强样本中该目标实例的预测结果，确定该目标实例的不确定度；依据该目标实例的不确定度确定该目标实例使用伪标签或需要人工标注。该方法可以降低标注人员的标注代价，提高标注人员的标注效率，降低数据集的标注成本。权利要求书3页说明书10页附图3页 CN 114298304 A 2022.04.08 CN 114298304 A 1.一种主动学习方法，其特征在于，包括：对于无标签样本集中的任一样本，利用预设增强方法对该样本进行增强处理，得到N个不同的增强样本；该N个不同的增强样本的语义信息一致， N≥2；利用查询模型对该N个不同的增强样本进行预测，分别得到各增强样本中的目标实例的预测结果；对于该样本中的任一目标实例，依据各增强样本中该目标实例的预测结果，确定该目标实例的不确定度；依据该目标实例的不确定度确定该目标实例使用伪标签或需要人工标注。 2.根据权利要求1所述的方法，其特征在于，所述依据该目标实例的不确定度确定该目标实例使用伪标签或需要人工标注，包括：若该目标实例的不确定度大于第一不确定度阈值，则确定该目标实例需要人工标注；若该目标实例的不确定度小于或等于所述第一不确定度阈值，则确定该目标实例使用伪标签。 3.根据权利要求1所述的方法，其特征在于，所述查询模型为目标检测模型；所述对于该样本中的任一目标实例，依据各增强样本中该目标实例的预测结果，确定该目标实例的不确定度，包括：选择该N个不同的增强样本中的任一增强样本中的任一检测框，以该增强样本中的该检测框为聚类中心，依据其它增强样本中的检测框与该检测框的重叠情况，进行聚类，得到该聚类中心对应的聚类簇；依据该聚类簇中各检测框，确定该聚类中心对应的目标实例的不确定度。 4.根据权利要求3所述的方法，其特征在于，所述依据该目标实例的不确定度确定该目标实例使用伪标签或需要人工标注，还包括：依据该目标实例的不确定度，确定该目标实例的类型；其中，目标实例的类型包括使用伪标签的第一类型、需要部分标注的第二类型，以及需要人工全标注的第三类型；第一类型目标实例、第二类型目标实例以及第三类型目标实例的不确定度依次升高。 5.根据权利要求4所述的方法，其特征在于，所述第二类型目标实例通过人工标注方式进行类别标注；所述第二类型目标实例的类别损失用于对目标检测模型进行监督训练。 6.根据权利要求1所述的方法，其特征在于，所述查询模型为分割模型；所述对于该样本中的任一目标实例，依据各增强样本中该目标实例的预测结果，确定该目标实例的不确定度，包括：以预设大小的像素块为目标实例，对于该样本中的任一目标实例，依据各增强样本中相同位置的像素块的预测结果，确定该目标实例的不确定度。 7.根据权利要求6所述的方法，其特征在于，所述对于该样本中的任一目标实例，依据各增强样本中相同位置的目标实例的预测结果，确定该目标实例的不确定度，包括：对于该目标实例中的任一像素点，依据各增强样本中相同位置的像素点的分类结果，确定该像素点的不确定度；依据该目标实例中各像素点的不确定度的平均值，确定该目标实例的不确定度。权　利　要　求　书 1/3 页 2 CN 114298304 A 28.根据权利要求1所述的方法，其特征在于，对于使用伪标签的目标实例，依据该目标实例的不确定度确定该目标实例的损失用于对查询模型进行监督训练的权重；其中，该权重与该目标实例的不确定度负相关。 9.一种主动学习装置，其特征在于，包括：增强处理单元，用于对于无标签样本集中的任一样本，利用预设增强方法对该样本进行增强处理，得到N个不同的增强样本；该N个不同的增强样本的语义信息一致， N≥2；预测单元，用于利用查询模型对该N个不同的增强样本进行预测，分别得到各增强样本中的目标实例的预测结果；第一确定单元，用于对于该样本中的任一目标实例，依据各增强样本中该目标实例的预测结果，确定该目标实例的不确定度；第二确定单元，用于依据该目标实例的不确定度确定该目标实例使用伪标签或需要人工标注。 10.根据权利要求9所述的装置，其特征在于，所述第二确定单元依据该目标实例的不确定度确定该目标实例使用伪标签或需要人工标注，包括：若该目标实例的不确定度大于第一不确定度阈值，则确定该目标实例需要人工标注；若该目标实例的不确定度小于或等于所述第一不确定度阈值，则确定该目标实例使用伪标签；和/或，所述查询模型为目标检测模型；所述第一确定单元对于该样本中的任一目标实例，依据各增强样本中该目标实例的预测结果，确定该目标实例的不确定度，包括：选择该N个不同的增强样本中的任一增强样本中的任一检测框，以该增强样本中的该检测框为聚类中心，依据其它增强样本中的检测框与该检测框的重叠情况，进行聚类，得到该聚类中心对应的聚类簇；依据该聚类簇中各检测框，确定该聚类中心对应的目标实例的不确定度；其中，所述第二确定单元依据该目标实例的不确定度确定该目标实例使用伪标签或需要人工标注，还包括：依据该目标实例的不确定度，确定该目标实例的类型；其中，目标实例的类型包括使用伪标签的第一类型、需要部分标注的第二类型，以及需要人工全标注的第三类型；第一类型目标实例、第二类型目标实例以及第三类型目标实例的不确定度依次升高；其中，所述第二类型目标实例通过人工标注方式进行类别标注；所述第二类型目标实例的类别损失用于对目标检测模型进行监督训练；和/或，所述查询模型为分割模型；所述第一确定单元对于该样本中的任一目标实例，依据各增强样本中该目标实例的预测结果，确定该目标实例的不确定度，包括：以预设大小的像素块为目标实例，对于该样本中的任一目标实例，依据各增强样本中相同位置的像素块的预测结果，确定该目标实例的不确定度；权　利　要　求　书 2/3 页 3 CN 114298304 A 3

专利 主动学习方法、装置、电子设备及可读存储介质

专利主动学习方法、装置、电子设备及可读存储介质